More than 5 years have passed since last update.

cuDNN で CUDNN_STATUS_INTERNAL_ERROR が出たときの問題解決

Last updated at 2019-08-25Posted at 2019-08-25

問題

TensorFlow とか, 自前コードで cuDNN で CUDNN_STATUS_INTERNAL_ERROR が出る.

だいたいにおいては, CUDA とのバージョンのミスマッチや, 古かったり異なる cuDNN のバージョンの .so にリンクしているのが起因している.

まずは ldd で古い libcudnn.so とリンクしていないか確認します.

cuDNN-sample をコンパイルして動かして正常に動くか確認しましょう.

今の所 CUDA/cuDNN のバージョン間違い以外で遭遇したことはないため... ハードウェアの故障の可能性があるかも?
(dmesg で XID エラーが出ていないか確認しましょう https://docs.nvidia.com/deploy/xid-errors/index.html )