azureのStandard NC40ads H100 v5 (40 vcpu 数、320 GiB メモリ)にNVIDIA driverを入れてみたときにnvidia-smi
コマンドが
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
エラーを返していたときの対処方法を以下に記載します。
azure protalから仮想マシンを作る
仮想マシンにSSH接続をする
すでに入っているnvidia driverがある場合は削除
sudo apt-get --purge remove nvidia-*
sudo apt-get --purge remove cuda-*
nvidia driverのインストール
ubuntu-drivers devices
- ここでおすすめされているドライバを次のコマンドでインストールします
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update
sudo apt install nvidia-driver-***
- ***には上のコマンドでおすすめされたドライバの数字を入力してください
再起動
sudo reboot
nvidia-smiで確認
nvidia-smi
以下のようにGPUの情報が返ってくれば成功です。うまく行かなかった場合、下の手順を実行してください。
secure bootのステータス確認
mokutil --sb-state
もし以下のようにセキュアブートがenabledになっている場合は、disableにします
SecureBoot enabled
azure portalでdisable secure boot
azure portal の VM ページで使用しているVMを選択します。一度停止ボタンを押し、シャットダウンしてください。
設定>構成>セキュリティの種類
のセクションに行くとセキュアブートを有効にするというチェックボックスがあるのでチェックボックスを外します。
概要ページに戻り起動を押し、SSH接続でもう一度nvidia-smiを確認すると、成功しました。