Posts
旧ブログからの引越し
CUDAとcmakeとLanguage server
Ampere世代のGPUはFP32->TF32の丸め回路を持つか?
低温調理器具メーカーNVIDIAの実力
cuRANDの各アルゴリズムのスループット比較
Fortran+OpenACCのsubroutine内可変長配列
CUDAの単精度浮動小数点数近似除算命令
Occupancyを可視化する
CUDA Kernel内でのポインタの指しているメモリ判定
CUDAの__device__関数のポインタを用いてif分岐を削除することに速度的優位性はあるか?
LAPACKEのlatmsを使う
CUDAでShared memoryを48KiB以上使うには
IQ1ならできる(される)ドメイン停止措置
CUDAの静的ライブラリを作るには
Nsight Computeでrooflineの図を描く
CUDA 11.2で導入されたcudaMallocAsyncとcudaFreeAsyncについて
よく使うSlurmのscontrolコマンド
AmpereのTensorコアの話
土器を焼きたくなって
CUDAのstreamにhost関数を流すには
NVVP/nvprofのサポート終了と代替品
CUDA half2のmax/min
nvccのコンパイル時の一時ファイルを残す方法
--dkmsを指定してNVIDIAのドライバをインストールしようとしてコケた話
Multi-node High Performance ATSUKAN Computing
CUDA #pragma unrollについてのtips
CUDA Profiler Control
CUDAの整数 & bit演算関数
cudaGetDevicePropertiesとcudaDeviceGetAttribute
精度補正を加えたTensorコアによる単精度積について
浮動小数点数デコーダへの道
多次元Block sizeのWarp idについて
CUDAでLambda関数
High Performance ATSUKAN Computing
CUDAのwarpSizeについて
CUDA device関数を別コンパイル単位に書く (ptxas fatal : Unresolved extern function)
Environment Modulesを使う
PTXでf16x2
CUDAのプロジェクトのMakefile
subscribe via RSS