0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

Failed to start NVIDIA persistence daemon で起動しない対処まとめ

Posted at

突然起動中にFailed to start NVIDIA persistence daemon

インフォメーション
自社の手順書を兼ねつつ、どこでも読めるようにリマインダーとして記載しています

  • ざっくりあらましを上記でみるとGPUドライバとの接続ができていないみたいです。
  • こういう場合はNouveauは無効にしているので気づかないと延々と待つハメに・・・

解決策・対処例

@sunrise_lover さんの記事を参照し、ドライバ再インストール

例はUbuntu18.04ですが、20,22でも対処はできます。

リカバリモードでdpkgを試す。

  • ドライバのインストールが行われれば起動してきます。

ドライバーとコミュニケーションできない!?

  • nvidia-smiをたたくとどうもそのように怒られます。

このように突然起こるようです。

補足

  • わたしもPytorchですが、年納めに間に合わず処理中断後、
    年明け最初の起動でおかしくなりました。

ドライバの再インストールができない

Ubuntu

desktop:~$sudo apt install xxx(ドライバ)

#略

Unpacking nvidia-kernel-common-535 (535.129.03-0ubuntu1) over (535.129.03-0ubunt
u0.22.04.1) ...
dpkg: error processing archive /var/cache/apt/archives/nvidia-kernel-common-535_
535.129.03-0ubuntu1_amd64.deb (--unpack):
 trying to overwrite '/lib/firmware/nvidia/535.129.03/gsp_ga10x.bin', which is a
lso in package nvidia-firmware-535-535.129.03 535.129.03-0ubuntu0.22.04.1
dpkg-deb: error: paste subprocess was killed by signal (Broken pipe)
Errors were encountered while processing:
 /var/cache/apt/archives/nvidia-kernel-common-535_535.129.03-0ubuntu1_amd64.deb
E: Sub-process /usr/bin/dpkg returned an error code (1)

といった有様です。

蹴られたコマンド、ユーティリティ

  1. 'sudo apt install -f'
  2. Software & Updates
  3. sudo apt purge nvidia-*

インフォメーション

  • リカバリモードでドライバの再インストールを試そうと実行したところ、別ウィンドウで同じようなエラー表示
  • 3はもしかすると'sudo apt purge nvidia*'だとすべてやり直しになるので自重

最終的な解決策

Ubuntu
sudo dpkg -i --force-overwrite /var/cache/apt/archives/nvidia-kernel-common-535_535.129.03-0ubuntu1_amd64.deb

  • 矯正で邪魔をしていたパッケージを上書きするのか・・・
  • これがうまくいくので、下のコマンド実行
Ubuntu
sudo apt --fix-broken install

回復例

Ubuntu
-desktop:~$ nvidia-smi
Fri Jan  5 08:05:13 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.129.03             Driver Version: 535.129.03   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA GeForce RTX 4070        On  | 00000000:07:00.0  On |                  N/A |
|  0%   21C    P8               5W / 200W |    185MiB / 12282MiB |      1%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|    0   N/A  N/A      1080      G   /usr/lib/xorg/Xorg                           92MiB |
|    0   N/A  N/A      1317      G   /usr/bin/gnome-shell                         84MiB |
+---------------------------------------------------------------------------------------+

まとめ

  • 1回で回復することもあれば、開発環境のためにドライバ・CUDAの組み合わせで別の現象がでる。
  • ドライバ、CUDAを入れ直すつもりならとりあえず早いというかスッキリはする。
  • 今回はドライバだけの軽微なエラーの感じだったので既知の情報や未知の手順を試してみました。
En

Information

  • Summarize of recovery from fail to communication for Nvidia driver issue
  • You can find similar topic in your mother tongue.
  • If you don't understand Japanese, please click link and its explanation.
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?