1
1

More than 3 years have passed since last update.

Ubuntu18.04LTS : 2080ti*2で学習したいけどよくわからんエラー吐くよ(故障)

Last updated at Posted at 2019-02-26

きっと環境構築が悪いんだろうな...

と思っていましたが,2080tiの片方だけが単純に初期不良だったっていうのがオチです.原因に気づくまでに3,4日虚無な時間を過ごしていました.Nvlink SLIも装着してたので,もしかしたらこの子が悪さしてるのかもしれないとかも思ってました.

どんな症状?

keras+tensorflow-gpuで学習しようとしたらエラー

全部載せきれてないですがこんな感じのエラー吐かれます.

エラー
failed to synchronize the stop event: CUDA_ERROR_ILLEGAL_ADDRESS: an illegal memory access was encountered
failed to synchronize the stop event: CUDA_ERROR_LAUNCH_FAILED: unspecified launch failure
Check failed: status == CUDNN_STATUS_SUCCESS (7 vs. 0)Failed to set cuDNN stream.

検索したらtensorflow-gpuのバージョンを変えたらエラー吐かないよっていうコメントもありましたが、今回の場合は想定外ですね

マザボからGPU引っこ抜いて単体テストした時のエラー

ログインした後の画面です.
ノイズがのっているうえに,ものすごく重たい.
IMG_9260.JPG
IMG_9261 2.jpg

解決策

ハードそのものが悪さしてるかもしれないので,GPUを片方ずつ引っこ抜いて単体テストしましょう.2080tiはまだ発売されたばかりなので,初期不良が多いとか.こんなの当たり前だろ記事で誰が救えるかはわかりませんが,メモ程度に置いときます.
さよならGPU

追記

おかえりGPU
無事に修理されて動く子になりました.
その後,Nvlink SLI装着してみましたが,VRAMはプールして 11G+11G=22G にはならないらしいですね…残念

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1