突然起動中にFailed to start NVIDIA persistence daemon
インフォメーション
自社の手順書を兼ねつつ、どこでも読めるようにリマインダーとして記載しています
- ざっくりあらましを上記でみるとGPUドライバとの接続ができていないみたいです。
- こういう場合はNouveauは無効にしているので気づかないと延々と待つハメに・・・
解決策・対処例
@sunrise_lover さんの記事を参照し、ドライバ再インストール
例はUbuntu18.04ですが、20,22でも対処はできます。
リカバリモードでdpkgを試す。
- ドライバのインストールが行われれば起動してきます。
ドライバーとコミュニケーションできない!?
- nvidia-smiをたたくとどうもそのように怒られます。
このように突然起こるようです。
補足
- わたしもPytorchですが、年納めに間に合わず処理中断後、
年明け最初の起動でおかしくなりました。
ドライバの再インストールができない
Ubuntu
desktop:~$sudo apt install xxx(ドライバ)
#略
Unpacking nvidia-kernel-common-535 (535.129.03-0ubuntu1) over (535.129.03-0ubunt
u0.22.04.1) ...
dpkg: error processing archive /var/cache/apt/archives/nvidia-kernel-common-535_
535.129.03-0ubuntu1_amd64.deb (--unpack):
trying to overwrite '/lib/firmware/nvidia/535.129.03/gsp_ga10x.bin', which is a
lso in package nvidia-firmware-535-535.129.03 535.129.03-0ubuntu0.22.04.1
dpkg-deb: error: paste subprocess was killed by signal (Broken pipe)
Errors were encountered while processing:
/var/cache/apt/archives/nvidia-kernel-common-535_535.129.03-0ubuntu1_amd64.deb
E: Sub-process /usr/bin/dpkg returned an error code (1)
といった有様です。
蹴られたコマンド、ユーティリティ
- 'sudo apt install -f'
- Software & Updates
- sudo apt purge nvidia-*
インフォメーション
- リカバリモードでドライバの再インストールを試そうと実行したところ、別ウィンドウで同じようなエラー表示
- 3はもしかすると'sudo apt purge nvidia*'だとすべてやり直しになるので自重
最終的な解決策
Ubuntu
sudo dpkg -i --force-overwrite /var/cache/apt/archives/nvidia-kernel-common-535_535.129.03-0ubuntu1_amd64.deb
- 矯正で邪魔をしていたパッケージを上書きするのか・・・
- これがうまくいくので、下のコマンド実行
Ubuntu
sudo apt --fix-broken install
回復例
Ubuntu
-desktop:~$ nvidia-smi
Fri Jan 5 08:05:13 2024
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.129.03 Driver Version: 535.129.03 CUDA Version: 12.2 |
|-----------------------------------------+----------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+======================+======================|
| 0 NVIDIA GeForce RTX 4070 On | 00000000:07:00.0 On | N/A |
| 0% 21C P8 5W / 200W | 185MiB / 12282MiB | 1% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
+---------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=======================================================================================|
| 0 N/A N/A 1080 G /usr/lib/xorg/Xorg 92MiB |
| 0 N/A N/A 1317 G /usr/bin/gnome-shell 84MiB |
+---------------------------------------------------------------------------------------+
まとめ
- 1回で回復することもあれば、開発環境のためにドライバ・CUDAの組み合わせで別の現象がでる。
- ドライバ、CUDAを入れ直すつもりならとりあえず早いというかスッキリはする。
- 今回はドライバだけの軽微なエラーの感じだったので既知の情報や未知の手順を試してみました。
En
Information
- Summarize of recovery from fail to communication for Nvidia driver issue
- You can find similar topic in your mother tongue.
- If you don't understand Japanese, please click link and its explanation.