2023/10/7に再度試したところ、正常にインストールできるようになっていた。修正されたらしい。
LLM用の環境が壊れたのでOSから再インストールしようと思い作業したらハマったのでメモ。
〇症状
2023/09/03にUbuntu22.04.03LTSでCUDA11.8をインストールしようとするとインストールプロセスに中に以下のメッセージが出てプロセスが完了しない。
Errors were encountered while processing:
nvidia-dkms-520
cuda-drivers-520
cuda-drivers
nvidia-driver-520
cuda-runtime-11-8
cuda-11-8
cuda-demo-suite-11-8
cuda
E: Sub-process /usr/bin/dpkg returned an error code (1)
上を見ていくとDKMSの処理でこけているらしい。
細かいバージョンは違うが症状を見ると大体こちらの事象と同じ。
https://forums.developer.nvidia.com/t/cant-install-cuda-11-8-on-ubuntu-22-04-lts/263227
〇解決策
CUDAのバグか、直近Ubuntuの更新でカーネルバージョンが6系に上げられたことが原因のようだったが、必ずしもCUDA11.8である必要はなかったので12.2をインストールした。(pytorchの公式サポートがearly版でも12.1までだったので少し躊躇われたがとりあえず動いたので良しとする)
〇その他試した方法
・カーネルバージョンを5.13まで戻す
⇒失敗。インストールはできたが6系を削除する際に逆に6.2系で上げられそうになる。
・古いバージョンのUbuntuを入れる
⇒セキュリティの懸念があるので断念。