0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

GPUサーバーのトラブルシューティング備忘録

Posted at

研究室GPUサーバー利用時の備忘録

研究室のGPUサーバーを利用する際の接続, 監視, トラブルシューティング, データ管理に関するメモである.

以下の図が研究室で利用している環境を表したものである.

Frame 4 (1).png

1. 接続と監視

GPUサーバーへの接続

  • SSH接続: 研究室のGPUサーバーにはSSHで接続する.
  • VPN (Tailscale): Tailscaleを利用することで, どこからでも研究室のGPUサーバーにSSH接続が可能である.

GPUの監視

  • watch nvidia-smi コマンドで, GPUの使用状況をリアルタイムで監視する.
watch nvidia-smi

2. トラブルシューティング

ケース1: GPUセッション切れ (コンテナ放置)

症状:
コンテナを立てっぱなしにするとGPU接続が切れる.

解決策:

  1. VSCodeの "Reopen Container" を実行する.
  2. コンテナ一覧から対象のコンテナを右クリックして "Restart" する.
  3. 再度 "Reopen Container" を実行する.

ケース2: GPU謎の接続切れ (バージョン不整合)

症状:
nvidia-smi 実行時に Failed to initialize NVML と表示される.

原因:
サーバー本体(ハード)のGPUドライバが自動更新され, コンテナ内のバージョンと不整合を起こしている可能性がある.

解決策:

  1. SSHで接続しているコンテナを restart する.
  2. それでもダメならGPUサーバー本体を再起動する.

ケース3: git/pip コマンドエラー

症状1: コンテナ内で git が使えない.
解決策: Dockerfileがあるホスト側で実行する.

症状2: pip がないと表示される.
確認: コンテナの外(ホストOS)で実行していないか確認する.

ケース4: SSH接続不可 (データが見れない)

症状:
データが見れない.

確認事項:

  • データはSSHの外(ドライブなど)にも保存する.
  • マウント元のMac miniがスリープ/電源オフになっていないか確認する(再起動で解決することが多い).

ケース5: SSH接続不可 (workフォルダが空)

症状:
/work フォルダが空になっている.

原因:
マウント元のドライブの電源が落ちている, またはマウントが切れている可能性がある.

対処法:

  1. SSH先で以下のコマンドを実行し, マウント状況を確認する.
    mount | grep nfs
    
  2. マウントが切れていたら管理者に再マウントを依頼する.

3. データ管理とパフォーマンス

コンテナ容量制限

  • /work ディレクトリの容量制限(例: 200GB)を認識する.

GPUメモリ不足

  • "Out of Memory" エラーへの対処法を調査しておく.
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?