概要
本記事ではvGPU用のドライバをESXiにインストールする方法をいくつか試してみましたので、その内容を記載します。
純粋にパススルーを行ってGPUを使う場合はESXi側にドライバ等は不要かと思いますが、vGPUなどを使う際は必要となる内容となります。
環境情報
今回は以下バージョンの環境を用意しています。
- ESXi: 8.0U2b
- vCenter: 8.0U2b
インストールパターン
vGPUをインストールする方法としていくつかあります。
今回は以下3パターンをそれぞれ行ってみます。
- パターン1: ESXiに直接モジュールを配置してインストール
- パターン2: vSphere Lifecycle Manager経由でモジュールをインポートしてインストール
- パターン3: GPU Manager経由でモジュールをインポートしてインストール
事前準備
NVIDIAのvGPUドライバのモジュールの取得はNVIDIAのLICENSE PORTALから取得をする必要があります。
アカウントに関してはvGPUの評価版を申し込むことで発行することができます。
https://www.nvidia.com/ja-jp/data-center/resources/vgpu-evaluation/
LICENSE PORTALにアクセス後、左メニューの[SOFTWARE DOWNLOADS]を選び、表示された画面で、[PRODUCT FAMILY]をvGPUにすることで出てきます。
今回は一旦vSphere8.0用の16.7をダウンロードしておきます。
- ダウンロードされるファイル: NVIDIA-GRID-vSphere-8.0-535.183.04-535.183.06-538.78.zip
ではこの後はそれぞれのインストール方法で試してみます。
パターン1: ESXiに直接モジュールを配置してインストール
一番シンプルなインストール方法かなと思います。
ファイルの準備
事前準備でダウンロードしておいたファイルから必要なものを取り出します。
- ダウンロード済みのzipを解凍
- Host_Drivers配下の[NVD-VGPU-○○○.zip]があることを確認
続いて、対象とするESXiのローカルデータストアに[NVD-VGPU-○○○.zip]をアップロードします。
インストール実行
ESXiにSSHでアクセスを行ってインストール作業を行います。
まずxorgサービスを停止します。
/etc/init.d/xorg stop
メンテナンスモードを有効にします。
esxcli system maintenanceMode set --enable true
アップロードしたファイルを指定する形で、以下インストールコマンドを実行します。
※絶対パスの指定が必要
esxcli software vib install -d /vmfs/volumes/<データストア名>/NVD-VGPU-○○○.zip
再起動を行い、完了後メンテナンスモードを解除します。
reboot
esxcli system maintenanceMode set --enable false
nvidia-smiを実行して以下のドライバがインストールされていることが確認できます。
# nvidia-smi
Thu Aug 8 17:07:05 2024
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.04 Driver Version: 535.183.04 CUDA Version: N/A |
|-----------------------------------------+----------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+======================+======================|
| 0 Tesla T4 On | 00000000:37:00.0 Off | Off |
| N/A 61C P8 19W / 70W | 95MiB / 16384MiB | 0% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
+---------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=======================================================================================|
| No running processes found |
+---------------------------------------------------------------------------------------+
以上がパターン1です。
パターン2: vSphere Lifecycle Manager経由でモジュールをインポートしてインストール
次はvSphere Lifecycle Managerを用いたインストールを行います。
こちらではvSphereのGUI上のみからインストールの完了まで行えます。
また、クラスタ内のESXiホストをまとめて実施してあげることができます。
Lifecycle Managerへのインポート
まずLifecycle Managerへモジュールのインポートを行います。
左メニューのLifecycle Managerを選択し、[アクション]-[更新のインポート]を選択。
事前準備で用意しておいたファイルを指定して、インポートの処理の完了を待ちます。
インポートが完了すると、一番下のコンポーネントのところに追加されていることが確認できます。
ESXiクラスタへの追加
インポートしたドライバをESXiクラスタに追加していきます。
vSphereクラスタのアップデートを選択し、単一イメージで管理を選択します。
(単一イメージで元々管理している場合は、イメージの編集を選択します)
[イメージの手動設定]を選択します。
コンポーネント欄の[詳細を表示]-[コンポーネントの追加]を選択します。
コンポーネントの追加画面で先程インポートしたドライバがあるため、選択します。
追加がされたら、保存を押します。
クラスタのコンプライアンス確認が走るため確認が終了後、[イメージのセットアップの完了]を選択し[すべてをステージング]を選択します。
ステージング処理が開始され、完了したら[全て修正]を選択します。
修正の同意画面が表示されるため、問題なければ[修正の開始]を選択します。
ESXiが順番にメンテナンスモードに入り、イメージの修正が行われます。
無事に処理が完了したら、ドライバの追加が完了です。
以上がパターン2です。
今回はvSphereクラスタのESXi3台まとめて実施されています。
パターン3: GPU Manager経由でモジュールをインポートしてインストール
最後のパターンとしてGPU Managerを用いたものを記載します。
こちらではドライバの事前ダウンロードは不要ですが、仮想アプライアンスとしてGPU Managerを展開しておく必要があります。
GPU Managerのセットアップ
まずLICENSE SERVERからOVFをダウンロードします。
LICENSE PORTALのNon Driver Downloadsの画面からダウンロードできます。
ダウンロードができたら、OVFテンプレートのデプロイから展開を行います。
展開完了後起動してブラウザから、仮想マシンのIPアドレスにアクセスをします。
1回目のアクセス時にパスワードの設定を求められるため、登録しておきます。
登録が完了するとそのままログインされます。
左上の登録を選択するとvCenterを登録できるため、入力して登録します。
登録完了後、vSphere Clientに戻りページをリロードすると、左メニューに[NVIDIA GPU マネジャー]が追加され、選択するとドライバのダウンロードを行う画面が表示されるようになります。
GPU Managerでドライバをダウンロードするには、NVIDIAのLICENSE PORTALのAPIキーが必要となります。
[Software Downloads]の権限を持ったAPIキーを発行して、こちらに適用しておきます。
適用が完了すると、GPU ドライバの一覧が表示されるようになります。
GPUドライバのダウンロード
[NVIDIA_ESXi_8.0_VGPU_17.3_550.90.05]を選択して、ダウンロードしてみます。
ダウンロードが完了すると、[ドライバーを管理する]の画面に表示されるようになります。
ドライバの反映
Lifecycle Managerを開き、アクションの更新の同期を選択します。
更新の同期が完了後、vSphereクラスタの[アップデート]から[編集]を選択します。
パターン2の時に追加したコンポーネントのバージョンを選択すると、GPU Managerでダウンロードしたコンポーネントも選べるようになっています。
あとはパターン2のときと同様に保存してクラスタに反映することで利用できます。
以上がパターン3です。
パターン1,2と異なり、事前にドライバを手元に落としておく必要がないのが確認できました。
まとめ
今回はESXiにvGPUドライバをインストールする方法として3パターン行ってみました。
GPU Managerは一回展開すれば、都度ドライバをNVIDIAのサイトに取りに行く必要が無いのは便利かなという印象でした。
おまけ
vSphere Lifecycle Managerにドライバ等のコンポーネントを追加はできるものの、削除する方法が用意されていないなぁと思っていました。
調べたところ、一応vCenterにSSHを行い、以下コマンドでvCenter側が持っているDBの情報をリセットすれば可能な感じでした。
ただし、まとめて全部の手動追加のものが消えるため、使用は注意が必要そうです(基本は検証用かな)。
service-control --stop vmware-updatemgr
python /usr/lib/vmware-updatemgr/bin/updatemgr-utility.py reset-db
service-control --start vmware-updatemgr
参考にしたサイト