0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

NVIDIA GPU 管理ダッシュボード

Posted at

OpenShift Console NVIDIA GPU プラグインをインストールすると、OpenShift Container Platform (OCP) コンソールから NVIDIA GPU の使用状況を確認できるようになります。

2024年6月、OCP4.12に当プラグインをインストールした時の記録です。

NVIDIA GPU 管理ダッシュボードのインストール

OpenShift Container Platform (OCP) コンソールで Helm を使用して NVIDIA GPU プラグインをインストールし、GPU 機能を追加します。

OpenShift Console NVIDIA GPU プラグインは、OCP コンソールのリモートバンドルとして機能します。OpenShift Console NVIDIA GPU プラグインを実行するには、OCP コンソールのインスタンスが稼働している必要があります。

  1. Helmのインストール

    # ls -l helm-v3.15.2-linux-amd64.tar.gz
    -rw-r--r--. 1 root root 16624839 Jun 25 11:45 helm-v3.15.2-linux-amd64.tar.gz
    # tar zxvf helm-v3.15.2-linux-amd64.tar.gz
    linux-amd64/
    linux-amd64/README.md
    linux-amd64/LICENSE
    linux-amd64/helm
    # mv linux-amd64/helm /usr/local/bin/helm
    # helm version
    version.BuildInfo{Version:"v3.15.2", GitCommit:"1a500d5625419a524fdae4b33de351cc4f58ec35", GitTreeState:"clean", GoVersion:"go1.22.4"}
    
  2. Helm リポジトリーを追加します。

    # helm repo add rh-ecosystem-edge https://rh-ecosystem-edge.github.io/console-plugin-nvidia-gpu
    "rh-ecosystem-edge" has been added to your repositories
    # helm repo update
    Hang tight while we grab the latest from your chart repositories...
    ...Successfully got an update from the "rh-ecosystem-edge" chart repository
    Update Complete. ⎈Happy Helming!⎈
    
  3. デフォルトの NVIDIA GPU Operator namespace に Helm チャートをインストールします。

    # helm install -n nvidia-gpu-operator console-plugin-nvidia-gpu rh-ecosystem-edge/console-plugin-nvidia-gpu
    NAME: console-plugin-nvidia-gpu
    LAST DEPLOYED: Tue Jun 25 11:49:38 2024
    NAMESPACE: nvidia-gpu-operator
    STATUS: deployed
    REVISION: 1
    NOTES:
    View the Console Plugin NVIDIA GPU deployed resources by running the following command:
    
    $ kubectl -n nvidia-gpu-operator get all -l app.kubernetes.io/name=console-plugin-nvidia-gpu
    
    Enable the plugin by running the following commands:
    
    # check if a plugins field is specified
    $ oc get consoles.operator.openshift.io cluster --output=jsonpath="{.spec.plugins}"
    
    # if not, then run the following to enable the plugin
    $ oc patch consoles.operator.openshift.io cluster --patch '{ "spec": { "plugins": ["console-plugin-nvidia-gpu"] } }' --type=merge
    
    # if yes, then run the following to enable the plugin
    $ oc patch consoles.operator.openshift.io cluster --patch '[{"op": "add", "path": "/spec/plugins/-", "value": "console-plugin-nvidia-gpu" }]' --type=json
    
    # add the required DCGM Exporter metrics ConfigMap to the existing NVIDIA operator ClusterPolicy CR
    $ oc patch clusterpolicies.nvidia.com gpu-cluster-policy --patch '{ "spec": { "dcgmExporter": { "config": { "name": "console-plugin-nvidia-gpu" } } } }' --type=merge
    
  4. デプロイされたリソースを表示します。

    # oc -n nvidia-gpu-operator get all -l app.kubernetes.io/name=console-plugin-nvidia-gpu
    NAME                                            READY   STATUS    RESTARTS   AGE
    pod/console-plugin-nvidia-gpu-ff74f6687-kc69r   1/1     Running   0          16m
    
    NAME                                TYPE        CLUSTER-IP       EXTERNAL-IP   PORT(S)    AGE
    service/console-plugin-nvidia-gpu   ClusterIP   172.30.230.198   <none>        9443/TCP   16m
    
    NAME                                        READY   UP-TO-DATE   AVAILABLE   AGE
    deployment.apps/console-plugin-nvidia-gpu   1/1     1            1           16m
    
    NAME                                                  DESIRED   CURRENT   READY   AGE
    replicaset.apps/console-plugin-nvidia-gpu-ff74f6687   1         1         1       16m
    

NVIDIA GPU 管理ダッシュボードの使用

OpenShift Container Platform Web コンソールにログインし、Administrator パースペクティブにて、ホーム > 概要にて、動的プラグイン をクリックします。
image.png

image.png

コンソールプラグインに無効状態の console-plugin-nvidia-gpu があります。これを 有効 にします。
image.png

console-plugin-nvidia-gpu を有効にすると、「Webコンソールの更新を利用できます」のポップアップが表示されます。Web コンソールの更新 をクリックし、Web コンソールを更新します。
image.png

Web コンソールを更新すると、コンピュートに GPUs が追加されます。ここをクリックするとNVIDIA GPU 管理ダッシュボード にアクセスできます。

image.png

クラスター GPU の概要の表示

ホーム > 概要にて、GPUに関する次の情報を確認できるようになっています。
image.png

image.png

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?