LoginSignup
15
6

More than 5 years have passed since last update.

Datadogで NVIDIA GPUのモニタリング

Last updated at Posted at 2016-12-05

Datadog で NVIDIAのGPUをモニタリングします

この記事はDatadog Advent Calendar 2016の5日目の記事です。

screencapture-app-datadoghq-dash-89079-nvidia-gpus-1480926991287.png

普段,NVIDIA DIGITSを使っています。このツールは,使用中のGPUのステータスを表示しているポートレットがあります。私はGPUのステータスをリモートで監視したかったので,Datadogによる監視をしてみようと考えました。DatadogのAgentは,デフォルトではGPUのモニタリング項目はありません。しかし,Datadogは,AgentのCheckスクリプトを自分で簡単に作成・追加することができます。そこで,GPUの状態を監視するスクリプトを作成しました。 NVIDIA Management Libraryを使うことでGPUの詳細なステータスを取得することができます。このAPIをPythonからは nvidia-ml-py モジュールを使うことで取得ができます。下記がメトリクスとなります。

一年前に書いた当初は4つのメトリクスしかなかったのですが,今では,7項目の取得するが可能となりました。今後は使用電力等を取得したいですね。

メトリクス

  • nvml.util.gpu: GPUの使用率
  • nvml.util.memory: メモリの使用率
  • nvml.mem.total: トータルメモリ
  • nvml.mem.used: 使用中メモリ
  • nvml.mem.free: 空きメモリ
  • nvml.temp: 温度
  • nvml.process.used_gpu_memory: プロセス毎の使用メモリ

タグ

  • name: GPU名-GPU番号(例: quadro_k1200-1)

コードは以下にあります

現在は,Linuxでしか動きません。

リファレンス

15
6
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
15
6