Posted at

カーネルが新しくなってCUDAが動かなくなったときのtips

More than 1 year has passed since last update.

tensorflowに限りませんが、GPUを使ったdeeplearningは環境構築がちょっと面倒です。

一度構築した環境も、何らかのタイミングでapt-get updateなどしたときにnvidiaのドライバが読み込めなくなることがあります。


ハマったのでメモ

自分の場合は、PCを再起動したらドライバが認識せず、CUDAが動かなくなりました。

たぶん試行錯誤してインストールしていたときに何かしてた。

> ls /dev/nvidia*

なにもなし

エラーとしてはこのように表示されます。

> nvidia-modprobe

modprobe: ERROR: ../libkmod/libkmod-module.c:809 kmod_module_insert_module() could not find module by name='nvidia_352'
modprobe: ERROR: could not insert 'nvidia_352': Function not implemented

自分の場合、新しいカーネルヘッダをインストールすることで解決しました。

apt-get install linux-headers-$(uname -r)