技術メモというよりは備忘録に近いトラブルシュートです
System unexpected shutdown due to memory combination
English brief comment
Trouble shooting
Synptom
- Unexpected shutdown due to working AI script with GPU
- no log was recorded
Failure cause
- replace other brand memory which is similar spec
Resolution
- reinstall original memory set
- After GPU working is no problem
If you cannot find any error, plz remeber what you did!
トラブル発生
- メモリを8GBから別メーカの16GBx2に差し替え(PC3200)
- UEFIでの認識、Ubntu22.04起動は問題なし
- とりあえずStable-diffusion実行
- 画像生成が始まると予告なしのシャットダウン
- Object Detectionでも突然シャットダウン
ログは残っていない
- CPUのみ使用スクリプトでは問題なく完走
- nvidia-smiを叩いても表示上問題なし
- CUDAのバージョンも問題なさそう
- ログを残すよう負荷をかけるが何も残らず
どうも少量のGPUメモリ使用なら問題なし
- 以前、GPUのVRAMの不良で負荷を2GB程度使うとコケたけどシャットダウンまではなかった
- 今回はちょっと雰囲気が違いますな。でも500MB程度の軽めのものなら動作しました
基本に立ち返る
- 現場100回ってことで、メモリをもとに戻す
普通に動く!
Appendix
- こんなもので切り分けしていました
- ツール作るまでもなかったというオチです