Posts
-
旧ブログからの引越し
-
CUDAとcmakeとLanguage server
-
Ampere世代のGPUはFP32->TF32の丸め回路を持つか?
-
低温調理器具メーカーNVIDIAの実力
-
cuRANDの各アルゴリズムのスループット比較
-
Fortran+OpenACCのsubroutine内可変長配列
-
CUDAの単精度浮動小数点数近似除算命令
-
Occupancyを可視化する
-
CUDA Kernel内でのポインタの指しているメモリ判定
-
CUDAの__device__関数のポインタを用いてif分岐を削除することに速度的優位性はあるか?
-
LAPACKEのlatmsを使う
-
CUDAでShared memoryを48KiB以上使うには
-
IQ1ならできる(される)ドメイン停止措置
-
CUDAの静的ライブラリを作るには
-
Nsight Computeでrooflineの図を描く
-
CUDA 11.2で導入されたcudaMallocAsyncとcudaFreeAsyncについて
-
よく使うSlurmのscontrolコマンド
-
AmpereのTensorコアの話
-
土器を焼きたくなって
-
CUDAのstreamにhost関数を流すには
-
NVVP/nvprofのサポート終了と代替品
-
CUDA half2のmax/min
-
nvccのコンパイル時の一時ファイルを残す方法
-
--dkmsを指定してNVIDIAのドライバをインストールしようとしてコケた話
-
Multi-node High Performance ATSUKAN Computing
-
CUDA #pragma unrollについてのtips
-
CUDA Profiler Control
-
CUDAの整数 & bit演算関数
-
cudaGetDevicePropertiesとcudaDeviceGetAttribute
-
精度補正を加えたTensorコアによる単精度積について
-
浮動小数点数デコーダへの道
-
多次元Block sizeのWarp idについて
-
CUDAでLambda関数
-
High Performance ATSUKAN Computing
-
CUDAのwarpSizeについて
-
CUDA device関数を別コンパイル単位に書く (ptxas fatal : Unresolved extern function)
-
Environment Modulesを使う
-
PTXでf16x2
-
CUDAのプロジェクトのMakefile
subscribe via RSS