0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

LLM ローカル実行のための物理環境を見積もる事前知識の整理

Last updated at Posted at 2026-01-16

はじめに

LLM を実行する場合最も簡便な選択肢は OpenAI や Google ,Anthropic などのモデルを API で使うことである.この場合制約になるのは従量課金のコストやデータのセキュリティである.これに対して,高性能な LLM が OSS で公開されたり,開発ライブラリや OSS ツールが盛り上がったりとローカルで実行する機運が高まりつつある.

大規模言語モデル (LLM) をセキュアにローカル環境で実行する場合,サーバスペックの見積もりが必要になる.これは LLM が依然としてマシンパワー,特にGPUに依存しているので,通常の端末では実行できない為である.Apple silicon や AMD 製 GPU ,TPU などの独自チップも選択肢にあるが,現在,市場では NVIDIA 製 GPU を搭載したサーバが主である.

LLM 用のサーバスペックを自分達で見積もるは意外とハードルがある.何故かというと GPU に始まるハードと LLM 両方をある程度理解していなければ見積もりができないからと考える.ここで述べるのはこの情報について少し掘り下げて調査した結果である.

以降ではまず LLM 実行用(テキスト生成とする)の NVIDIA GPU について整理する.次に,整理した情報から市販品で用意できる GPU を搭載するサーバについて構成の例を考える.クラウドのインスタンスについてはプロバイダのページに一覧が載っているのでここでは触れない.あくまで自分で用意するという点に焦点を当てる.

ここでは, LLM 実行用の物理環境について扱い, LLM のデプロイ方法や効率的な運用などについては触れない.また, GPU はデータセンタ向けを念頭においている.

NVIDIA 製 GPU を理解する

GPU のデータ型

LLM の実行負荷はパラメータ数もあるが,その内部で取り扱うデータ型に強く依存する.ここでは主要なデータ型について抑えておく.

代表的なデータ型は FP や INT, BF, TF, MXFP などがある.推論時はいずれでも問題ないが,精度 (bit数) と実行速度はトレードオフになる.特に 32 bit は現実的な推論スループットは望めない.よく使われるのは FP16 (精度重視) やINT4, 8 (メモリ効率重視) である.MXFP は 最近策定されたデータ型で,OSS モデルでは GPT-OSS が該当する.

精度はデータ型とその bit 数に依存し,必要なリソースと逆相関になる.動かしたいモデルや確保できるリソース,ユースケース,想定される負荷,いずが重要かを決めてから,リソースをなるべくフルに使えて高精度に動作するデータ型を選択する.

また,データ型とは別に量子化手法も存在するので別途確認する.

項目 FP32 (Floating Point 32) FP16 (Floating Point 16) BF16 (Brain Floating Point 16) TF32 (TensorFloat 32) MXFP4 (Microscaling FP4)
ビット長 32bit 16bit 16bit 32bit(内部演算は19bit) 4bit (E2M1)
符号部 1bit 1bit 1bit 1bit 1bit
指数部 8bit 5bit 8bit 8bit 2bit
仮数部 23bit 10bit 7bit 10bit(実際は仮数7bit相当) 1bit
表現範囲 ±3.4 × 10³⁸ ±6.5 × 10⁴ ±3.4 × 10³⁸(FP32と同等) ±3.4 × 10³⁸(FP32と同等) ± $10^{39}$(FP32と同等)
特徴 標準的な浮動小数点数(IEEE 754) FP32を16bit で表現したもの FP32と同等の範囲だが精度は低い FP32互換で学習高速化した型 $[10^{-39}, 10^{39}]$ 程度の範囲を 1要素 4.25 bit 程で表現できる.
主な用途 (ML) 正確な学習,HPC 推論,省メモリ学習 高速な学習(TPU, A100) 高速な学習(Nvidia GPU) LLM の推論と学習 (NVIDIA GPU など)
利点 精度・範囲ともに優秀 軽量・高速で省メモリ 安定性高く,範囲が広く高速 TF32対応 Nvidia GPUで自動的に高速化 表現範囲が広く,小さい値も扱える.
欠点 メモリ・帯域使用量が多い アンダーフロー・不安定になりやすい 精度がやや劣る(仮数7bit) 精度がFP32よりやや劣る(仮数削減) 仮数部の精度が低い
備考 FP16では勾配誤差が小さすぎて扱えないがFP32ではメモリ効率が悪いため開発.業界標準になりつつあり.google により開発. 外部からは FP32 と互換があるように見えるため使いやすい.nvidia により開発. 非常に大きい勾配と非常に小さい重みを少ない bit 数で同時に扱える LLM 向け形式. Open Compute Project により定義.

[mxfp-doc] : https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf, 閲覧: 2025-10-01.

NVIDIA 製 GPU

2024時点での NVIDIA 製 GPU を整理する.現在は Ampare や Hopper が主流で Backwell が利用され始めている段階にある.製品で言えば, A10 や A100, H100 を搭載したサーバが多い.

世代

発表年 アーキテクチャコードネーム 代表的 GPU (データセンタ用) 備考
2018 Turing T4 省エネタイプ
2020 Ampere A10, A100 (40/80 GB), A30, A40
2022 Hopper H100 (SXM 80/ SVL 94 GB), H200 SXM は専用ソケット.NVL はPCIe x2.
2023 Ada Lovelace L4, L40, L40S 省エネタイプ.
2024~ Blackwell B100, B200, GB200 GB200 は GPU モジュール.

製品

製品名 アーキテクチャ メモリ容量 発売年度 FP32 TFLOPS メモリ帯域幅 メモリ規格 消費電力 (TDP) タイプ
NVIDIA T4 Turing 16GB 2018年 8.1 320 GB/s GDDR6 70W 省エネ
NVIDIA A10 Ampere 24GB 2021年 31.2 600 GB/s GDDR6 150W 省エネ
NVIDIA A100 Ampere 80GB 2020年 19.5 2039 GB/s HBM2E 400W 高性能
NVIDIA H100 Hopper 80GB 2022年 67 2,000 GB/s HBM3 350W 高性能, LLM特化
NVIDIA H200 Hopper 141GB 2024年 67 4,800 GB/s HBM3E 700W 高性能, LLM特化
NVIDIA L4 Ada Lovelace 24GB 2023年 30.3 300 GB/s GDDR6 72W 省エネ
NVIDIA B100 Blackwell 192GB 2024年 - 8000 GB/s ? HBM3E 700W 高性能, LLM特化
NVIDIA B200 Blackwell 288GB 2024年 - 8000 GB/s ? HBM3E 1000W 高性能, LLM特化

メモリ規格について補足する.GDDR は汎用 GPU (グラフィックス)向け. HBM (High Bandwidth Memory) はより高帯域で大容量という区分けになっている.LLM は当然 HBM が高帯域で大きい方が有利になる.HBMx の x は世代, E は強化版 (Enhanced の E ?) を示す.

GPU の接続方式

GPU の接続方式は主に PCIe と SXM がある.一般的に流通しているマザーボードでは PCIe で接続することになる.一方で NVIDIA 製のワークステーションなど専用のボードでは SXM が利用される.大規模なサービスとして LLM を展開するなら SXM が候補となる.

ソケットタイプ 概要 利点 欠点
PCIe 一般的なGPUカード接続方式 汎用的で安価.一般的なマザボについている. 電源ケーブルが必要.データが CPU を経由するため GPU 間通信は遅い.ただし,NVLink Bridge を後付けで補完が可能.
SXM 専用のソケットを利用する.NVLink/NVL による接続.1ボードあたり4~8スロット.LLMを複数GPUで大規模に動かすならほぼ必須といえる. 高速で通信帯域が広い.電源ケーブル不要で障害復旧や冷却がしやすい. 専用ボードが必要.

SXM ソケット
SXM ソケット(右側) [SXM socket]

[SXM socket] : Danwat1234 thesecond, CC BY-SA 4.0, https://en.wikipedia.org/wiki/SXM_(socket), 閲覧: 2025-10-01.

GPU 間の通信

複数 GPU を搭載した場合の GPU 間の通信方式を整理する.有名なのが NVLink Bridge であり, H100 などを専用ブリッジ(物理パーツ) で接続し 2枚の GPU を実質1つとして扱う.PCIe 接続で NVLink Bridge 構成にすると CPU を介した通信ではなく GPU 同士でやり取りができるため高速化が可能になる.大規模なデータセンタでは SXM で接続し NVSwitch や InfiniBand が利用される.

項目 NVLink NVLink Bridge NVSwitch InfiniBand
区分 通信プロトコル 物理デバイス 物理デバイス 物理デバイス + 通信プロトコル
概要 NVIDIA独自の高速なGPU間通信プロトコル. PCIe GPU同士をNVLinkで接続するための物理ブリッジ. 多数のGPUをNVLinkで接続するスイッチハブ. 高速・低レイテンシなノード間ネットワーク規格.
用途 同一ノード内のGPU間・CPU-GPU間通信. PCIe 接続 GPU 同士のNVLink接続(2枚構成). 同一ノード内で8〜16枚のGPUをメッシュ接続. 異なるノード(サーバー)間での通信(GPUクラスタ,HPC,AIデータセンタ)
最大帯域(構成や世代依存) 900 GB/s 600 GB/s 900 GB/s (全体で7.2TB/s) 400 Gbps (レーン数による)
通信距離 数cm(同一マザーボードまたはBridge) 数cm(隣接したPCIeスロット) 十数cm(同一基板内) 数m〜100m以上(銅線 or 光ファイバー)
拡張性 GPU 4〜6枚程度の構成まで 2枚のGPUのみ 8〜16枚のGPUを全結合で接続 数百〜数千ノードへのスケールが可能(データセンタ向け)
条件 GPUがNVLink対応であること NVLink対応PCIe GPUが2枚 専用基板設計(例:HGXボード)とSXM GPU InfiniBand対応NICとスイッチ,専用ケーブルが
ベンダ NVIDIA NVIDIA NVIDIA Mellanox(現NVIDIA),Intel

GPU を選定する評価例

LLM を実行する GPU を選択することを考える.ここでは次の表にある順でスペック項目の検討をした.

評価項目

# 項目 概要 影響
1 メモリ容量 (VRAM あるいは HBM) LLM をロードする GPU メモリ容量.単一の容量や枚数. 実行可能な LLM サイズやコンテキストサイズ
2 メモリ帯域幅 メモリの帯域幅. HBM メモリが望ましい. デプロイ速度,スループット
3 演算性能 演算のスループット (FLOPS) LLMの推論(トークン生成)速度.LLM実行にはFLOPSとHBM帯域両立が必要.
4 接続方式 GPU の物理的な接続方式 LLM の並列分散実行での遅延.ただし,GPUx1 運用ではそこまで問題ではない.

GPU はメモリ拡張が当然できないので,メモリ容量を優先して評価する.メモリ容量次第で任意の LLM の実行可否(生成,学習)が決まり,ユースケースに制限かかかるるので一番に考えるスペックとした.例えば,動作させたいモデルがある場合はサイズから容量を見積もる.コード生成など用途が決まっている場合はモデルと必要なコンテキスト長からメモリ容量を見積もる.また,メモリ容量を増やす為,複数枚で GPU クラスタを用意する場合は同じ製品にする.

メモリ帯域はスループットに影響を与えるがメモリ容量と比較して重要ではない.実行速度が遅くとも LLM は実行可能でクリティカルな問題にならないためである.ただし,検証用なのかサービス用なのかでサービスレベル(必要なスループット)が異なるので注意する.基本的に HBM を選択し,AI アプリケーションは H100 での実行が主流のはずであるからこれをベースに帯域の優劣を見積もるのが良いと考える.

演算性能もスループットに影響を与えるがメモリ容量と比較して重要ではない.LLM の推論は演算性能とメモリ帯域に依存するので,前述のメモリ帯域と併せて考える.先ほどと同様に,世の中の AI アプリケーションは H100 での実行が主流のはずであるからこれをベースラインに CUDA コアの数などの優劣を見積もって検討する.

接続方式はより大規模な LLM 実行において重要である.GPU 1枚で実行不可能なサイズの LLM を展開するならば複数枚の GPU に分割してデプロイしなければならない.また,システムスループットを向上させる場合は複数枚の GPU に同じモデルを展開することになる.特に前者の場合,GPU の物理的な接続方式はスループットに影響する.例えば一般的なマザーボードにある PCIe スロットでは対応している GPU 間通信に NVLink Bridge が利用できる.

モデルではなく,採用予定の AI 製品や OSS がある場合はそのソフトウェアが推奨している GPU を用意する.(正直 H100 で良いとは思う)

GPU メモリ容量の目安

ここでは推論時と学習時で必要になるメモリ容量を見積もる.推論時はモデルパラメータとコンテキスト長が支配的である.学習時は最適化アルゴリズムやデータ型依存だが,推論時に加えて数倍のメモリ容量が必要になる.

推論時

推論時のメモリ容量を見積もる(具体例は末尾).メモリの消費に影響を与える主な要因を示す.

  1. モデルサイズ(パラメータ数)
  2. KV キャッシュ (Key Value Cache).中間表現に含む場合もある.
  3. 中間表現(アクティベーション).推論時は破棄できるので小さい.

これらはデータ型やコンテキスト長,バッチサイズ,アテンションの次元数で変動する.

メモリ消費量を簡単に推定するために,まずはデータ型とバイト数をおさらいする.

  • INT8 = 8bit = 1 byte
  • FP16 = 16 bit = 2 byte
  • FP32 = 32 bit = 4 byte

LLM はパラメータ数だけこのデータ型で値を持つ.まず,単純にモデルのパラメータサイズを HBM にロードすることを考える.必要なメモリ容量 $\mathrm{MEM_{dtype}}$ を求めるにはデータ型における1パラメータバイト数 $B_{\mathrm{dtype}}$ [byte/param] とパラメータ数 $N$ の積を取れば良い.

$$
\mathrm{MEM_{dtype}} =
B_{\mathrm{dtype}} \cdot N \
$$

テキスト生成時はKVキャッシュや中間表現を保持するためのオーバーヘッドが発生する.このため,経験則として言われているのはモデルロード時の容量に対して20%のマージンを取る方法である.

$$
\mathrm{MEM_{dtype}} =
B_{\mathrm{dtype}} \cdot N \cdot 1.2 \
$$

簡単に見積もるなら上記の式で問題ないが,最近はコンテキスト長が非常に長い LLM も出現しており KV キャッシュの容量がモデルのそれより大きくなる傾向がる.そこで 20% のマージンに丸めた KV キャッシュについて掘り下げて理解を深める.

モデルレイヤ数 $N_L$,KV のヘッド数 $N_H^{\text{(KV)}}$,ヘッドあたりの埋め込み次元 $D_h$,バイト数 $d$ [byte] とすると,1トークンあたりに必要な KV Cache の容量は下記.(2 掛けは kとvがあるため).

$$
M_{\text{KV1}} =
2 \cdot N_L \cdot N_H^{\text{(KV)}} \cdot D_h \cdot d
$$

GQA など Q と KV のヘッド数を変えている場合はモデルとして提示されているヘッド数 $N_H$ について $N_H \neq N_H^{\text{(KV)}}$である場合があるのて注意する.あくまで KV のヘッド数を与えること.また, $D_h$ はモデルの埋め込み次元 $D$とMulti-head-attentionのヘッド数 $N_H$ に対して, $D_h = \frac{D}{N_H}$ の関係にある.これは,attention 出力を結合すると $D$ になる様に設計されているためである.

さて,実行時はバッチサイズ $B$,トークン長 $s$ で推論されるので全体のサイズは下記になる.$d$ は FP16なら2 [byte].

$$
M_{\text{KV}} =
2 \cdot N_L \cdot N_H^{(\text{KV})} \cdot D_h \cdot d \cdot B \cdot s
$$

最終的に下記が全体のメモリ消費量である.

$$
\mathrm{MEM_{dtype}} =
B_{\mathrm{dtype}} \cdot N + M_{\text{KV}}
$$

具体例を示す.例えば Llama 3.3 70B Instruct は公式にヘッド数 $N_H^{\text{(KV)}}=8$,ヘッドあたりの埋め込み次元 $D_h=128$,コンテキスト長 $s=128000$ ,レイヤ数 $N_L=80$ である.これをバッチサイズ $B=32$ ,バイト数 $d=2$ [byte] (16bit)で読み込むと仮定する.

このとき,1トークンあたりの KV キャッシュは $2 \times 80 \times 8 \times 128 \times 2 = 327680$ [byte/token] $\simeq 320$ [KiB] である.

フルでコンテキスト長を利用した場合,全体では $2 \times 80 \times 8 \times 128 \times 2 \times 32 \times 128000= 1342177280000$ [byte] $\simeq 1250$ [GiB] のメモリが必要になる.これに 140 [GB] ~ 130 [GiB] を足すと 1380 [GiB] である.これが全体で必要なメモリ容量である.ただし,バッチサイズやトークン長を増やしているのでただ動かす場合はもっと小さくなる.

例からわかるようにコンテキスト長が支配的なパラメータで,十分大きければ概ね $M_{\text{KV}}\propto s$ である.現在は 1Mトークン超えのモデルもあり,今後はさらに増大が見込まれる.

コンテキスト長に対しては下記の様に変化する.8bit で実行するとこの半分,4bit で実行すると 1/4 になる.バッチ数を減らしても線型的に増減する.

コンテキスト長 GiB
8000 78
32000 312
128000 1250

基本的に古典的な KV キャッシュというのはあるリクエストにおいて,過去生成した結果を保存しておく領域である.つまり,既存トークンから次のトークンを予測するタスクを高速化するものであり,基本的にリクエストが完了したら解放される.従って, KV キャッシュは永続的にメモリを占有するものではないので KV キャッシュの容量計算にはリクエスト数や時間のパラメータはない.しかしながら,よくある接頭辞などを保存しておいて再利用するキャッシュの手法も存在する.

[nvidia-memory-requirment] : https://developer.nvidia.com/blog/mastering-llm-techniques-inference-optimization#llm_memory_requirement, 閲覧: 2025-10-01.

学習時 [transformer-math]

学習時は推論時より多くのメモリが必要になる.大きく4つあり,推論と異なるのは勾配とオプティマイザの値を持つ点にある.

  1. モデルパラメータ
  2. 勾配計算結果 (重み更新用)
  3. オプティマイザ (アルゴリズム依存)
  4. 中間表現(アクティベーション)

モデルパラメータのメモリ消費は推論時と変わらない.しかし学習時は比較的高精度な FP16, FP32 レベルの精度で計算される. FP16 と FP32 のデータ型いずれかを適所で利用して効率と精度を両立して混合精度で計算をさせることもある.

$$
\mathrm{MEM_{model}} =
B_{\mathrm{dtype}} \cdot N \
$$

オプティマイザは最適化手法によってメモリ効率が異なる.例えば,有名な SDG の最適化アルゴリズムである Adam では 1パラメータに対して,

  • パラメータの複製 4 byte
  • モーメント 4byte
  • 分散 4byte

であるから 12 [byte/param] を消費する.勾配等は非常に高精度で計算しなければならないので FP 32 とする.つまり,バイト数は

$$
\mathrm{MEM_{opt}} =
B_{\mathrm{dtype}} \cdot N \
= 12 \cdot N
$$

である.

勾配は単純に各パラメータに対して用意されるので FP32 の場合,

$$
\mathrm{MEM_{grad}} =
B_{\mathrm{dtype}} \cdot N \
= 4 \cdot N
$$

である.

中間表現(アクティベーション)は HBM に記憶させるかどうか(手法依存)で容量が変わる.近年のGPUは計算性能よりメモリ帯域がボトルネックになる.つまり, アクティベーションの結果をHBM に持たせておくよりは,部分的に再計算した方が動作速度上は効率的な場合があるということである.再計算の程度によって, HBMの使用量は異なる [transformer-math, reducing-activation]

$$
\text{MEM}_{\text{activations}}^{\text{NoRecomp}} = sbhL \left(10 + \frac{24}{t} + 5 \cdot \frac{a \cdot s}{h \cdot t} \right) \text{ bytes}
$$

$$
\text{MEM}_{\text{activations}}^{\text{SelectiveRecomp}} = sbhL \left(10 + \frac{24}{t} \right) \text{ bytes}
$$

$$
\text{MEM}_{\text{activations}}^{\text{FullRecomp}} = 2 \cdot sbhL \text{ bytes}
$$

s: シーケンス長(トークン数)  
b: バッチサイズ(GPUあたり)  
h: 隠れ層の次元数  
L: Transformer層の数  
a: アテンションヘッドの数  
t: テンソル並列度(使用しない場合は1)

分散学習をすることで 1GPU に必要なメモリ量を削減することができる[transformer-math].ただし,Megatron-LM や DeepSpeed のライブリラリを用意する,GPU間同期のオーバーヘッド,設計や実装のハードル,失敗時のエラー要因が複雑などのデメリットもある.

並列化の区分名称 分割対象 主な技術
Data Parallelism バッチ(データ) DDP, ZeRO-1~2
Tensor Parallelism 単一層の重み行列など Megatron-LMなど
Pipeline Parallelism モデル層(例:前半・後半) GPipe, DeepSpeed PP

https://blog.eleuther.ai/transformer-math/
並列化イメージ[ransformer-math]

[transformer-math] : https://blog.eleuther.ai/transformer-math/, 閲覧: 2025-10-01.

[reducing-activation] : KORTHIKANTI, Vijay Anand, et al. Reducing activation recomputation in large transformer models. Proceedings of Machine Learning and Systems, 2023, 5: 341-353.

サーバの選定と調達

サーバを調達するにはレンタルするか購入するかの2択である.ここではレンタルしてまずは検証をするという用途を考える.

レンタル

レンタルの方法を3つ挙げる.

  1. GPU単体(すでに GPU を搭載可能なサーバを所有している)
  2. GPU サーバ (BTO,NVIDIA DGX H100 など)
  3. クラウドサービスの占有サーバ(占有インスタンスなど物理的に借りる)

今回はセキュアな環境での利用を想定したいので 3. は除外する.

物品の選択

現在は新世代の Blackwell が出荷されつつあるが流通量が限定されており,依然として Hopper 世代(e.g. H100)や1つ前のAmpere世代(e.g. A100)が現役である.

ここではメモリ見積もりを経て,実績があり,LLM に適している Hopper を採用したとする.H100のバリエーションは複数あり,一般的なサーバに挿すには PCIe に対応した H100 PCIe や H100 NVL が必要.

型番 フォームファクタ メモリタイプ メモリ帯域幅 発表時期
H100 PCIe (80 GB) PCIe Gen5 ×16 カード HBM2e 約2 TB/s 2023
H100 NVL (94 GB) PCIe (デュアル)+ NVLink HBM3 約3.9 TB/s 2024
H100 SXM(80 GB/94 GB) SXM5モジュール HBM3 約3.35 TB/s 2024

欲しい GPU H100 をレンタルした時,どれだけ料金がかかるのか市場の雰囲気を簡単に調査する.

例えば,複数のレンタル企業さんでレンタルした時のホームページ上の製品と料金を示す.こう言った製品群から費用対効果に見合ったものと期間を選択する.

対象 モデル 短期レンタル(1か月, 税込) 長期1年レンタル(1か月, 税込)
GPU 単体 H100 NVL 94GB ¥935,000 ¥418,000
GPU 単体 H100 80GB ¥935,000 ¥418,000
GPU サーバ GS-Supermicro 741GE-TNRT (サーバ) ? (要問い合わせ) ?
GPU 単体 H100 NVL 94GB 1,364,000 1,091,200
GPU 単体 H100 80GB 1,333,900 1,067,120
GPU サーバ PowerEdgeR760XA (サーバ) 2,559,400 2,047,520

Nvidia のハード

Nvidia が用意しているサーバもあるので参考までに記載する.本格的に LLM をサービスとして提供したり,モデルをトレーニングする段階で必要性が高まる.

Nvidia DGX (Deep GPU Xceleration)

生成モデル用 (GPU) の完成品スパコン.SaaS で提供しているものを除くと3シリーズある.

  • DGX Spark: 小型,卓上サイズ
  • DGX Station: 大型,タワーサイズ
  • DGX Quantum: 量子用

製品例.

  • NVIDIA DGX Station A100 (2020)
  • NVIDIA DGX H100
  • NVIDIA DGX H200

Nvidia HGX

OEM用のGPUモジュール.

Nvidia MGX

OEM用のサーバモジュール規格.

おまけ)市販品で構築する

H100 GPU だけレンタルし,サーバを市販品で用意するシナリオを考える.利点は GPU のみ差し替えや増強を気軽にでき,環境をゼロから作らなくても良い点にある.

レンタル用のサーバを参考にCPU/GPU → マザーボード → RAM → Storage → Power Supply Unit の順で構成を考える.ただし,あくまで一例であってユースケースによって構成は変化するし,市販品での構築は検証用になる.さらに,実際に組んでいないので実現可能性は確認できていない.

H100を採用する場合のサーバ仕様

  • スロットが PCIe Gen5 x16: 128GB/s に対応する(マザボ, CPU依存なので注意)
  • 電源 1500 W 程度(GPU: 400W + CPU: 350W + MEM その他HDDやファン + 100W + マージン)
  • H100 x1 を搭載. TDP = 400w程度なので空冷で良い.
  • 冗長化無し.電源は 100-240V対応.

構成例

カテゴリ 製品 / スペック TDP [W] 規格 備考
CPU Intel Xeon W5‑2455X 240 LGA 4677, DDR5 ECC サーバ用はマザボ含め流通が少ないのでW系.
マザーボード ASUS Pro WS W790‑ACE 60 SSI-CEB, W790 チップセット, PCIe Gen5
GPU NVIDIA H100 NVL 400 PCIe Gen5 x16 レンタル
メモリ MTC10F1084S1RC48BA1R (16GB x 4) 20 DDR5-4800 , ECC Registered DIMM RDIMM, DDR5-4800 だったらなんでも良い
ストレージ Kioxia EXCERIA PRO 1TB 10 M.2 2280, PCIe 4.0 x4, NVMe 1.4
電源 Corsair HX1200i - GPU 補助電源 16pin (12V‑2×6) が1本付属.
ケース SilverStone RM46-502-I - 4Uラック CPUクーラ限度 132mm
CPUファン XE04-4677V 10 高さ126mm
ケースファン FHS 140X x2 26 140mm
OS Ubuntu 24.04 LTS - CPU, マザボ対応

搭載 GPU: H100

まず, H100 のハードウェア仕様をドキュメント [h100-product-brief] から確認する.

項目 備考
寸法 d: 268.6 x w: 111.15 , dual-slot Product Brief の図面から算出
電源 PCIe 16-pin 補助電源コネクタ (12V‑2×6) 400W PCIe コネクタを下にしておいた場合の右側側面に接続
インターフェース PCI Express Gen5 x16; Gen5 x8; Gen4 x16 Gen3 は無いので保証されない
エアフロー 左右いずれかから流す.パッシブ冷却.

[h100-product-brief] : NVIDIA H100 NVL GPU Product Brief, https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/h100/PB-11773-001_v01.pdf, 閲覧: 2025-10-01.

CPU

流通している既成サーバを踏襲してXeon系を検討する.テキスト生成においてはトークナイザ,リクエスト処理など CPU の性能も重要である.例えば vLLM ブログではCPUの影響を調査している[vllm-performance].

[vllm-performance] : https://blog.vllm.ai/2024/09/05/perf-update.html, 閲覧: 2025-10-01.

CPU|世代とシリーズ

Xeon は世代,シリーズ,グレードでカテゴライズされている.

Xeon の世代と仕様.

世代 コードネーム コアタイプ 最大PCIe Gen5レーン数 ソケット 発売年
4th Gen Sapphire Rapids 最大80レーン LGA 4677 2023
5th Gen Emerald Rapids 最大80レーン LGA 4677 2023
6th Gen Granite Rapids P (高性能/速度重視) 最大136レーン LGA 4710 2024
6th Gen Sierra Forest E (省電力/並列重視) 最大88レーン LGA 7529 2024

世代における Xeon のシリーズ区分.

シリーズ名 グレード 型番パターン例
Xeon Scalable Platinum 8xxx, 9xxx(例:Xeon Platinum 8368)
Gold 6xxx, 5xxx(例:Xeon Gold 6348)
Silver 4xxx(例:Xeon Silver 4314)
Bronze 3xxx(例:Xeon Bronze 3204)
Xeon W W3 Xeon W‑3xxx(例:W‑3‑2425)
W5 Xeon W‑5xxx(例:W‑5‑3425)
W7 Xeon W‑7xxx(例:W‑7‑3445)
W9 Xeon W‑9xxx(例:W‑9‑3495X)

Scalable はサーバ用, W はワークステーション用.他にも Max と D がある.LLM推論のサーバでよく使われるように見受けられるのは Scalable.

シリーズ名 主な用途 特徴 ソケット
Xeon Scalable サーバ・HPC・クラウド 高信頼性・マルチソケット対応・大規模拡張 LGA 4677 / LGA 4710
Xeon Max 科学計算・HPC向け HBM(高帯域幅メモリ)を内蔵したScalable派生モデル LGA 4677
Xeon D ネットワーク/組込み/エッジ向け 低消費電力・SoC設計(NIC・I/O込み) BGA/FCBGA(はんだ付け)
Xeon W ワークステーション用 高クロック・単ソケット・プロ用途向け LGA 4677 / LGA 2066

プロセッサの命名規則.世代やシリーズで微妙に違う.

<ブランド名: Xeon> <クラス: Bronze/Silver/Gold/Platinum> <グレード番号><世代番号><枝番1><枝番2><オプション記号>

CPU|選定

市場の流通在庫から見て Gen4 ~ 5 が妥当.Gold 系のサーバ向け Xeon プロセッサ対応のマザボは OEM が多いため普通の小売店でほとんど見かけない.自前で楽に組み立てるなら Xeon-W の構成がよいと考える.

20万円以下で見た場合,型番は下記.

CPU名 世代 ソケット 対応チップセット 備考
Xeon w5-2455X 4th Gen (Sapphire Rapids Workstation) LGA4677 W790
Xeon Gold 5415+ 4th Gen (Sapphire Rapids-SP) LGA4677 C741
Xeon Gold 5515+ 5th Gen (Emerald Rapids) LGA4677 C741(5415と同じ) 4th Genと同じチップセットだがBIOS更新要? 対応MBに注意.

[w5-2455] : https://www.intel.co.jp/content/www/jp/ja/products/sku/233420/intel-xeon-w52455x-processor-30m-cache-3-20-ghz/specifications.html, 閲覧: 2025-10-01.

マザーボード

Xeon W を前提として LGA 4677,w790チップセットのマザーボードを探す.流通しているメーカは ASUS, ASRock, SUPERMICRO.

入手が容易なのは ASUS PRO WS W790-ACE など [w790-ace].一応OS対応状況も問題ない [asus-os-support].

[w790-ace] : https://www.asus.com/jp/motherboards-components/motherboards/workstation/pro-ws-w790-ace/techspec/, 閲覧: 2025-10-01.

[asus-os-support] : https://www.asus.com/content/Static_WebPage/OS-Compatibility/ 閲覧: 2025-10-01.

RAM

xeon w5-2455X はメモリチャンネルが4,W790-ACE が 8スロットなので4枚差しが妥当.

LLM 用の場合, GPU メモリ以上の容量があると安心.例えば,DDR5,32GB x 4 = 128 GB のようにする.

公式ページからマザボの仕様を確認する [w790-ace].

8 x DIMM slots, Max. 2048GB, DDR5 6800(OC)/6600(OC)/6400(OC)/6200(OC)/6000(OC)/5800(OC)/5600(OC)/5400(OC)/5200(OC)/5000(OC)/4800 ECC Registered Memory*
Quad Channel Memory Architecture
Supports Intel® Extreme Memory Profile (XMP)
* Supported memory types, data rate (speed), and number of DRAM modules vary depending on the CPU and memory

モジュール種類はECC RDIMM および 3DS RDIMM が対応しているので,RDIMM, DDR5-4800 のメモリを選ぶ.例えば,Micron MTC20F1045S1RC48BA1R

Storage

マザボで接続可能なストレージが決まる.前述のマザボの例の場合は2つのM.2 スロットがあるので NVme SSD を2枚挿せる.例えば,Kioxia EXCERIA PRO 1TB.他にも HDD 接続やNFSなどを検討する.

PSU

電源ケーブルがマザボに8pin,H100 GPU に16pinが必要なのでこれらをもつ電源を用意する.

さらに,これまで決まったパーツからワット数を見積る.

コンポーネント 製品名 消費電力(目安) 備考
CPU Xeon W5‑2455X 200 W 公称TDP。
GPU NVIDIA H100 PCIe 350〜400 W 仕様上は最大350W(PCIe)NVLinkモデルは高め.
メモリ ECC RDIMM 16GB × 4 28〜40 W 1枚あたり約7〜10W
M.2 SSD Kioxia EXCERIA PRO 1TB 6〜9 W 読み書き時最大9W。
マザーボード W790‑ACE(チップセット含む) 40〜60 W VRM数が多く帯電性高いため高め見積もり.
冷却ファン類 CPUファン + ケースファン 10〜20 W 数・サイズにより増減.
予備(周辺等) USB機器・ヘッドレス用途等 20〜30 W

例えば,HELA 1200R Platinum や HX1200i が候補になる.Corsair HX1200i の方が ATX 3.1 規格で新しく保証も長い.

ケース

主にマザボとGPUの物理サイズ,設置場所によって決まる.

  • ワークステーション型: 市販品で多い.床や棚に設置.
  • ブレード / ラック:ラックがすでにある場合.

マザボは SSI-CEB フォームファクタなのでこれに対応したケースを選ぶ.さらに,H100 が取付可能なサイズか,空冷が十分機能するかを確認しておば問題はない.

ラックマウントサーバーシャーシの例

https://www.silverstonetek.com/jp/product/server-nas/?filter=4U_chassis, 閲覧: 2025-10-01.

まとめ

NVIDIA GPU について理解し,セキュアな環境で LLM 推論を実行する場合のサーバ調達の例を考えた.最も楽なのはサーバを丸ごとレンタルすることである.一方で H100 x2程度なら自前で構築可能なので用途や要件に応じて調達方法を選択する.いずれにしても GPU と LLM の理解は必要になる.今後は NVIDIA だけではなく AMD や TPU などの専用チップも増えてくると予想されるので最適な構成はさらに複雑化すると考えられる.

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?