GPUクラスターの設計を整理する：構成図・slurmdbd・監視の考え方

Last updated at 2026-06-09Posted at 2026-06-09

この記事でわかること

まず今回のクラスター全体を図で示します。

各ノードの役割をまとめます。

ノード	動くサービス	役割
ログインVM	slurm-client / munge	ユーザーのジョブ投入口
コントローラーVM	slurmctld / slurmdbd / munge	ジョブ管理の司令塔
GPUノード × 12	slurmd / munge / node_exporter / dcgm_exporter	ジョブの実行・メトリクス収集
監視VM	Prometheus / Grafana	メトリクス収集・可視化
DBaaS（MariaDB）	-	ジョブの実行履歴管理

slurmdbdはSlurmのデーモンのひとつで、ジョブの実行履歴をデータベースに記録・管理します。

「誰がいつ何のジョブをGPU何枚で何時間回したか」をすべてDBに蓄積します。

これがあることで：

が可能になります。

slurmdbdのバックエンドにはMySQLかMariaDBが必要です。
今回はFPT CLOUDのDBaaSを使いました。

理由はシンプルで、コントローラーVM上にDBを立てると：

DBaaSであればその辺りはマネージドで任せられます。

GPUクラスターは「動いているかどうか」だけでなく、どれだけ使われているかを把握することが重要です。

これらを人間が目視で確認するのは無理です。監視の仕組みが必要です。

各GPUノードで動かすExporterです。
CPU使用率・メモリ・ディスク・ネットワークなどOSレベルのメトリクスを収集します。

NVIDIAが提供するGPU向けのExporterです。
GPU使用率・メモリ使用量・温度・電力消費などGPU固有のメトリクスを収集します。

GPU温度や使用率をリアルタイムで把握するには dcgm_exporter が必須です。

Slurmのジョブ状態・ノード状態をメトリクスとして公開するExporterです。
「現在実行中のジョブ数」「キュー待ちのジョブ数」「ノードの状態」などが取得できます。

今回の設計で意識したことを整理します。

slurmdbdはDBaaSに分離する
コントローラーVMとDBを同居させるとSPOF（単一障害点）になります。
ジョブ履歴は運用上重要なデータなので、DBaaSで分離するのが安全です。

監視は専用VMに分離する
PrometheusとGrafanaをコントローラーVMから切り出すことで、
監視基盤とジョブ管理基盤が互いに影響しない構成になります。
コントローラーVMに負荷が集中するのを避ける意味でも有効です。

監視はExporterを役割ごとに分ける
OS・GPU・Slurmそれぞれ専用のExporterを使い分けることで、
問題発生時に「どのレイヤーで何が起きているか」を切り分けやすくなります。