天炉48町

Posts

Mar 31, 2024
旧ブログからの引越し
Nov 23, 2023
CUDAとcmakeとLanguage server
Jan 8, 2023
Ampere世代のGPUはFP32->TF32の丸め回路を持つか？
Dec 27, 2022
低温調理器具メーカーNVIDIAの実力
Dec 29, 2021
cuRANDの各アルゴリズムのスループット比較
Sep 23, 2021
Fortran+OpenACCのsubroutine内可変長配列
Sep 18, 2021
CUDAの単精度浮動小数点数近似除算命令
Aug 7, 2021
Occupancyを可視化する
Aug 7, 2021
CUDA Kernel内でのポインタの指しているメモリ判定
Aug 7, 2021
CUDAの__device__関数のポインタを用いてif分岐を削除することに速度的優位性はあるか？
May 25, 2021
LAPACKEのlatmsを使う
Feb 2, 2021
CUDAでShared memoryを48KiB以上使うには
Dec 22, 2020
IQ1ならできる（される）ドメイン停止措置
Dec 21, 2020
CUDAの静的ライブラリを作るには
Dec 19, 2020
Nsight Computeでrooflineの図を描く
Dec 17, 2020
CUDA 11.2で導入されたcudaMallocAsyncとcudaFreeAsyncについて
Dec 15, 2020
よく使うSlurmのscontrolコマンド
Dec 1, 2020
AmpereのTensorコアの話
Aug 7, 2020
土器を焼きたくなって
Jun 28, 2020
CUDAのstreamにhost関数を流すには
Jun 12, 2020
NVVP/nvprofのサポート終了と代替品
Apr 14, 2020
CUDA half2のmax/min
Apr 7, 2020
nvccのコンパイル時の一時ファイルを残す方法
Mar 26, 2020
--dkmsを指定してNVIDIAのドライバをインストールしようとしてコケた話
Jan 22, 2020
Multi-node High Performance ATSUKAN Computing
Dec 24, 2019
CUDA #pragma unrollについてのtips
Dec 21, 2019
CUDA Profiler Control
Dec 20, 2019
CUDAの整数 & bit演算関数
Dec 8, 2019
cudaGetDevicePropertiesとcudaDeviceGetAttribute
Dec 1, 2019
精度補正を加えたTensorコアによる単精度積について
Aug 16, 2019
浮動小数点数デコーダへの道
Jun 15, 2019
多次元Block sizeのWarp idについて
Jun 10, 2019
CUDAでLambda関数
Dec 17, 2018
High Performance ATSUKAN Computing
Dec 6, 2018
CUDAのwarpSizeについて
Aug 25, 2018
CUDA device関数を別コンパイル単位に書く (ptxas fatal : Unresolved extern function)
Jun 6, 2018
Environment Modulesを使う
Dec 14, 2017
PTXでf16x2
Nov 14, 2017
CUDAのプロジェクトのMakefile