問題
TensorFlow とか, 自前コードで cuDNN で CUDNN_STATUS_INTERNAL_ERROR
が出る.
原因
だいたいにおいては, CUDA とのバージョンのミスマッチや, 古かったり異なる cuDNN のバージョンの .so にリンクしているのが起因している.
対処方法
まずは ldd
で古い libcudnn.so
とリンクしていないか確認します.
cuDNN-sample
をコンパイルして動かして正常に動くか確認しましょう.
それでもダメなときは...
今の所 CUDA/cuDNN のバージョン間違い以外で遭遇したことはないため... ハードウェアの故障の可能性があるかも?
(dmesg で XID エラーが出ていないか確認しましょう https://docs.nvidia.com/deploy/xid-errors/index.html )