HBM4は壁を壊さなかった、後退させただけだ
HBMの帯域は世代ごとに倍増してきた。
HBM2E (2020): 410 GB/s per stack — 1024-bit, 3.2 Gb/s/pin
HBM3 (2022): 819 GB/s per stack — 1024-bit, 6.4 Gb/s/pin
HBM3E (2024): 1.2 TB/s per stack — 1024-bit, 最大9.8 Gb/s/pin (JEDEC上限、ベンダーにより異なる)
HBM4 (2026): 2.0 TB/s per stack — 2048-bit, 8.0 Gb/s/pin
この表に違和感がないか。
HBM4のJEDEC基本仕様のピン速度は8.0 Gb/s。HBM3Eの最大仕様9.8 Gb/s(Samsung実装値、SK Hynixは8 Gb/s)より低い。帯域が倍になったのに、基本仕様のピンは上がっていない。帯域増加の大部分がインターフェース幅の倍増(1024→2048ビット)から来ている。
速度を上げるのではなく、道幅を広げた。これがHBM4の設計判断だ。そしてこの判断には、物理的な限界が絡んでいる。
ピン速度が頭打ちになった理由
信号品質の壁
ピン速度の推移を整理すると、成長率の減速が明確になる:
| 世代 | ピン速度 | 年 | 前世代比 |
|---|---|---|---|
| HBM2E | 3.2 Gb/s | 2020 | — |
| HBM3 | 6.4 Gb/s | 2022 | 2.0x |
| HBM3E | 最大9.8 Gb/s※ | 2024 | 1.53x |
| HBM4 | 8.0 Gb/s (JEDEC基本) | 2026 | 0.82x (減少) |
※HBM3Eの9.8 Gb/sはJEDEC上限値(Samsung実装)。SK Hynix HBM3E(B200搭載品)は8 Gb/s。ベンダー実装はJEDEC基本仕様を超えることが多い。
10 Gb/sを超えるマイクロバンプ経由の信号伝送は、TSV(Through-Silicon Via)の寄生容量とインピーダンス不整合でジッターが増大する。HBM3Eの9.8 Gb/sはこの物理的限界に近い。
SK Hynixが2025年3月にサンプル出荷した12層HBM4は11.7 Gb/sを記録した(NVIDIA Rubin要求仕様に対応)。ただしJEDECの基本仕様は8 Gb/s。ベンダー実装がJEDEC基本を超えるのはHBM3E世代と同様であり、量産品の実効速度は8-12 Gb/sの範囲になると見込まれる。
| 戦略 | メリット | リスク | 限界 |
|---|---|---|---|
| ピン速度を上げる | 面積増加なし | ジッター増大、歩留まり低下、電力増加 | ~10 Gb/s (TSV寄生容量) |
| インターフェース幅を広げる | 信号品質を維持したまま帯域倍増 | チップ面積増加、パッケージコスト増 | バンプピッチ (40μm → 36μm → ?) |
HBM4は後者を選んだ。安全策だが、確実に帯域が取れる。
2 TB/sでLLM推論はどう変わるか
A100 → H100 → B200 → 次世代の帯域推移
| GPU | HBM | スタック数 | 帯域 | 年 |
|---|---|---|---|---|
| A100 80GB | HBM2E | 5 | 2.0 TB/s | 2020 |
| H100 80GB | HBM3 | 5 | 3.35 TB/s | 2022 |
| H200 | HBM3E | 6 | 4.8 TB/s | 2024 |
| B200 | HBM3E | 8 | 8.0 TB/s | 2025 |
| 次世代 (推定) | HBM4 | 8 | 16 TB/s | 2026-27 |
B200→次世代で帯域2倍。これでLLM推論はどれだけ速くなるか。
デコードの帯域ボトルネック再計算
KVキャッシュ記事(別記事)で示した計算を、HBM4世代で再計算する。
Llama-3-70B(FP16で140GB)を例に、デコードの理論最大速度 = 帯域 / モデルサイズ で計算する:
| GPU | HBM | 帯域 | 70B理論最大速度 |
|---|---|---|---|
| A100 80GB | HBM2E ×5 | 2.0 TB/s | 14 t/s |
| H100 80GB | HBM3 ×5 | 3.35 TB/s | 24 t/s |
| H200 | HBM3E ×6 | 4.8 TB/s | 34 t/s |
| B200 | HBM3E ×8 | 8.0 TB/s | 57 t/s |
| HBM4世代(推定) | HBM4 ×8 | 16 TB/s | 114 t/s |
HBM4世代でもA100の8倍。しかし10,000 t/sには程遠い。
LIMINAL論文の結論
NVIDIA Researchを中心とした研究チーム(Davies et al., arXiv:2507.14397)がLIMINALという分析モデルで予測した結果:
LIMINALモデルの実測誤差は7.6%(MAE)。そのモデルが示す4つの壁: 計算量、メモリ容量、メモリ帯域、集団通信。結論: 10,000 t/s超にはハードウェア進化だけでなくアルゴリズムの根本的革新が必要。HBM4でも帯域の壁は突破できない。壁が少し後退するだけだ。
10,000 t/sは1トークンあたり0.1msでの生成を意味する。70Bモデル(FP16で140GB)なら10,000 × 140 = 1,400 TB/sの帯域が必要。HBM4 8スタックの16 TB/sはその1/88。桁が2つ足りない。帯域スケーリングだけで10,000 t/sに届くことは、HBM世代を何回重ねても不可能だとLIMINALは示している。
コンシューマGPUへの波及
RTX 4060 → 次世代の帯域見通し
| GPU | メモリ | 帯域 | 年 |
|---|---|---|---|
| RTX 3060 | GDDR6 | 360 GB/s | 2021 |
| RTX 4060 | GDDR6 | 272 GB/s | 2023 |
| RTX 5060 | GDDR7 | 448 GB/s | 2025 |
| RTX 6060 (推定) | GDDR7X? | ~550-600 GB/s | 2027-28 |
注意: RTX 4060は前世代より帯域が下がった(360→272)。NVIDIAはコンシューマではコスト優先で帯域を削ることがある。RTX 5060でGDDR7になっても、448 GB/sはHBM2E 1スタック相当にすぎない。
データセンターとの差: B200 (8 TB/s) / RTX 4060 (272 GB/s) = 約30倍。HBM4世代 (16 TB/s) / RTX 6060推定 (550 GB/s) = 約29倍。差は30倍前後で安定しており、コンシューマがデータセンターに追いつくことはない。
ローカルLLMユーザーへの意味
帯域でデコード速度が決まるなら、ローカルLLMの未来は暗いのか。
悲観的に見れば: 272 GB/sでQwen2.5-32B Q4_K_M (~20GB) → ~14 t/sが上限。GDDR7で448 GB/sになっても~22 t/s。帯域では勝てない。
現実的に見れば: 量子化がさらに進む(Q2_K, 1.5bit)→モデルサイズ縮小で帯域要件緩和。小モデルの品質向上(Qwen3.5 4Bクラス)→大モデル不要化。マルチモデル構成→帯域を効率的に使う。ブロック選択最適化(PRISM的ソフトウェア版)→読む量を減らす。
核心: 帯域を増やす競争は負ける。帯域を使わない方法で勝つ。
データセンターGPUの帯域は2年で2倍のペースで伸びている。コンシューマGPUの帯域はコスト優先で削られることすらある(RTX 3060→4060で360→272 GB/sに減少)。この差は構造的であり、縮まらない。HBM4の2 TB/s/stackは2026年のデータセンター向けであり、コンシューマに降りてくることは物理的にない(HBMはインターポーザ実装が必須で、コンシューマGPUのパッケージに収まらない)。
ローカルLLMが戦う場所は帯域の絶対値ではない。帯域あたりの仕事量を最大化するソフトウェアとモデル設計だ。
帯域の壁は3方向から攻められている
現時点で、メモリ帯域のボトルネックに対するアプローチは3層に分かれる。
Layer 1: ハードウェア帯域の増加
HBM3→HBM3E→HBM4 (2年で2x)
GDDR6→GDDR7 (仕様上は最大1.6x程度、実製品は実装依存)
→ 確実だが、10 Gb/s/pinの物理限界で減速中
Layer 2: 読み出し量の削減
量子化 (FP16→Q4_K_M→Q2_K: 4-8x削減)
Sparse Attention (KVキャッシュの大部分をスキップ — 論文により削減率は異なる)
ブロック選択 (PRISM: 16x削減)
→ ソフトウェアで即効性がある
Layer 3: 読み出し自体の排除
PIM (メモリ内演算: データを動かさずに計算)
キャッシュ最適化 (頻出パターンをSRAMに保持)
→ ハードウェア変更が必要だが、根本的な解決
実効帯域 = L1 × L2 × L3
HBM4 + Sparse Attention + PIM が全て噛み合えば
16 TB/s × 10x削減(推定) × 2x PIM効率(推定) = 実効 320 TB/s相当
これなら70Bモデルで2,285 t/s — 現在のA100比 163倍
※ 10x, 2x は技術の組み合わせによる概算。実測値ではない
10,000 t/sにはまだ足りないが、現在の14 t/sから2,000 t/s超への跳躍は、どの単一技術でも不可能で、3層の掛け算で初めて見えてくる。
HBM4は「帯域を2倍にした」のではなく、「3層アプローチの1層目を更新した」にすぎない。残りの2層はソフトウェアとアーキテクチャの仕事であり、そこにローカルLLMが戦える余地がある。RTX 4060の272 GB/sでも、Layer 2を最大化すれば実効帯域は数倍になる。帯域の絶対値で負けても、使い方で勝てる世界がまだ残っている。
参考文献
- "LIMINAL: Exploring The Frontiers of LLM Decode Performance" (2025) arXiv:2507.14397
- JEDEC JESD270-4 HBM4 Standard (2025)
- SK Hynix HBM4 12-layer sample (March 2025) — 11.7 Gb/s, NVIDIA Rubin向け
- "PRISM: Breaking the O(n) Memory Wall in Long-Context LLM Inference via O(1) Photonic Block Selection" (2026) arXiv:2603.21576