HBM4は壁を壊さなかった、後退させただけだ

Posted at 2026-04-08

HBM4は壁を壊さなかった、後退させただけだ

HBMの帯域は世代ごとに倍増してきた。

HBM2E (2020): 410 GB/s per stack — 1024-bit, 3.2 Gb/s/pin
HBM3  (2022): 819 GB/s per stack — 1024-bit, 6.4 Gb/s/pin
HBM3E (2024): 1.2 TB/s per stack — 1024-bit, 最大9.8 Gb/s/pin (JEDEC上限、ベンダーにより異なる)
HBM4  (2026): 2.0 TB/s per stack — 2048-bit, 8.0 Gb/s/pin

この表に違和感がないか。

HBM4のJEDEC基本仕様のピン速度は8.0 Gb/s。HBM3Eの最大仕様9.8 Gb/s（Samsung実装値、SK Hynixは8 Gb/s）より低い。帯域が倍になったのに、基本仕様のピンは上がっていない。帯域増加の大部分がインターフェース幅の倍増（1024→2048ビット）から来ている。

速度を上げるのではなく、道幅を広げた。これがHBM4の設計判断だ。そしてこの判断には、物理的な限界が絡んでいる。

ピン速度が頭打ちになった理由

信号品質の壁

ピン速度の推移を整理すると、成長率の減速が明確になる:

世代	ピン速度	年	前世代比
HBM2E	3.2 Gb/s	2020	—
HBM3	6.4 Gb/s	2022	2.0x
HBM3E	最大9.8 Gb/s※	2024	1.53x
HBM4	8.0 Gb/s (JEDEC基本)	2026	0.82x (減少)

※HBM3Eの9.8 Gb/sはJEDEC上限値（Samsung実装）。SK Hynix HBM3E（B200搭載品）は8 Gb/s。ベンダー実装はJEDEC基本仕様を超えることが多い。

10 Gb/sを超えるマイクロバンプ経由の信号伝送は、TSV（Through-Silicon Via）の寄生容量とインピーダンス不整合でジッターが増大する。HBM3Eの9.8 Gb/sはこの物理的限界に近い。

SK Hynixが2025年3月にサンプル出荷した12層HBM4は11.7 Gb/sを記録した（NVIDIA Rubin要求仕様に対応）。ただしJEDECの基本仕様は8 Gb/s。ベンダー実装がJEDEC基本を超えるのはHBM3E世代と同様であり、量産品の実効速度は8-12 Gb/sの範囲になると見込まれる。

戦略	メリット	リスク	限界
ピン速度を上げる	面積増加なし	ジッター増大、歩留まり低下、電力増加	~10 Gb/s (TSV寄生容量)
インターフェース幅を広げる	信号品質を維持したまま帯域倍増	チップ面積増加、パッケージコスト増	バンプピッチ (40μm → 36μm → ?)

HBM4は後者を選んだ。安全策だが、確実に帯域が取れる。

2 TB/sでLLM推論はどう変わるか

A100 → H100 → B200 → 次世代の帯域推移

GPU	HBM	スタック数	帯域	年
A100 80GB	HBM2E	5	2.0 TB/s	2020
H100 80GB	HBM3	5	3.35 TB/s	2022
H200	HBM3E	6	4.8 TB/s	2024
B200	HBM3E	8	8.0 TB/s	2025
次世代 (推定)	HBM4	8	16 TB/s	2026-27

B200→次世代で帯域2倍。これでLLM推論はどれだけ速くなるか。

デコードの帯域ボトルネック再計算

KVキャッシュ記事（別記事）で示した計算を、HBM4世代で再計算する。

Llama-3-70B（FP16で140GB）を例に、デコードの理論最大速度 = 帯域 / モデルサイズで計算する:

GPU	HBM	帯域	70B理論最大速度
A100 80GB	HBM2E ×5	2.0 TB/s	14 t/s
H100 80GB	HBM3 ×5	3.35 TB/s	24 t/s
H200	HBM3E ×6	4.8 TB/s	34 t/s
B200	HBM3E ×8	8.0 TB/s	57 t/s
HBM4世代(推定)	HBM4 ×8	16 TB/s	114 t/s

HBM4世代でもA100の8倍。しかし10,000 t/sには程遠い。

LIMINAL論文の結論

NVIDIA Researchを中心とした研究チーム（Davies et al., arXiv:2507.14397）がLIMINALという分析モデルで予測した結果:

LIMINALモデルの実測誤差は7.6%（MAE）。そのモデルが示す4つの壁: 計算量、メモリ容量、メモリ帯域、集団通信。結論: 10,000 t/s超にはハードウェア進化だけでなくアルゴリズムの根本的革新が必要。HBM4でも帯域の壁は突破できない。壁が少し後退するだけだ。

10,000 t/sは1トークンあたり0.1msでの生成を意味する。70Bモデル（FP16で140GB）なら10,000 × 140 = 1,400 TB/sの帯域が必要。HBM4 8スタックの16 TB/sはその1/88。桁が2つ足りない。帯域スケーリングだけで10,000 t/sに届くことは、HBM世代を何回重ねても不可能だとLIMINALは示している。

コンシューマGPUへの波及

RTX 4060 → 次世代の帯域見通し

GPU	メモリ	帯域	年
RTX 3060	GDDR6	360 GB/s	2021
RTX 4060	GDDR6	272 GB/s	2023
RTX 5060	GDDR7	448 GB/s	2025
RTX 6060 (推定)	GDDR7X?	~550-600 GB/s	2027-28

注意: RTX 4060は前世代より帯域が下がった（360→272）。NVIDIAはコンシューマではコスト優先で帯域を削ることがある。RTX 5060でGDDR7になっても、448 GB/sはHBM2E 1スタック相当にすぎない。

データセンターとの差: B200 (8 TB/s) / RTX 4060 (272 GB/s) = 約30倍。HBM4世代 (16 TB/s) / RTX 6060推定 (550 GB/s) = 約29倍。差は30倍前後で安定しており、コンシューマがデータセンターに追いつくことはない。

ローカルLLMユーザーへの意味

帯域でデコード速度が決まるなら、ローカルLLMの未来は暗いのか。

悲観的に見れば: 272 GB/sでQwen2.5-32B Q4_K_M (~20GB) → ~14 t/sが上限。GDDR7で448 GB/sになっても~22 t/s。帯域では勝てない。

現実的に見れば: 量子化がさらに進む（Q2_K, 1.5bit）→モデルサイズ縮小で帯域要件緩和。小モデルの品質向上（Qwen3.5 4Bクラス）→大モデル不要化。マルチモデル構成→帯域を効率的に使う。ブロック選択最適化（PRISM的ソフトウェア版）→読む量を減らす。

核心: 帯域を増やす競争は負ける。帯域を使わない方法で勝つ。

データセンターGPUの帯域は2年で2倍のペースで伸びている。コンシューマGPUの帯域はコスト優先で削られることすらある（RTX 3060→4060で360→272 GB/sに減少）。この差は構造的であり、縮まらない。HBM4の2 TB/s/stackは2026年のデータセンター向けであり、コンシューマに降りてくることは物理的にない（HBMはインターポーザ実装が必須で、コンシューマGPUのパッケージに収まらない）。

ローカルLLMが戦う場所は帯域の絶対値ではない。帯域あたりの仕事量を最大化するソフトウェアとモデル設計だ。

帯域の壁は3方向から攻められている

現時点で、メモリ帯域のボトルネックに対するアプローチは3層に分かれる。

Layer 1: ハードウェア帯域の増加
  HBM3→HBM3E→HBM4 (2年で2x)
  GDDR6→GDDR7 (仕様上は最大1.6x程度、実製品は実装依存)
  → 確実だが、10 Gb/s/pinの物理限界で減速中

Layer 2: 読み出し量の削減
  量子化 (FP16→Q4_K_M→Q2_K: 4-8x削減)
  Sparse Attention (KVキャッシュの大部分をスキップ — 論文により削減率は異なる)
  ブロック選択 (PRISM: 16x削減)
  → ソフトウェアで即効性がある

Layer 3: 読み出し自体の排除
  PIM (メモリ内演算: データを動かさずに計算)
  キャッシュ最適化 (頻出パターンをSRAMに保持)
  → ハードウェア変更が必要だが、根本的な解決

実効帯域 = L1 × L2 × L3
HBM4 + Sparse Attention + PIM が全て噛み合えば
  16 TB/s × 10x削減(推定) × 2x PIM効率(推定) = 実効 320 TB/s相当
  これなら70Bモデルで2,285 t/s — 現在のA100比 163倍
  ※ 10x, 2x は技術の組み合わせによる概算。実測値ではない

10,000 t/sにはまだ足りないが、現在の14 t/sから2,000 t/s超への跳躍は、どの単一技術でも不可能で、3層の掛け算で初めて見えてくる。

HBM4は「帯域を2倍にした」のではなく、「3層アプローチの1層目を更新した」にすぎない。残りの2層はソフトウェアとアーキテクチャの仕事であり、そこにローカルLLMが戦える余地がある。RTX 4060の272 GB/sでも、Layer 2を最大化すれば実効帯域は数倍になる。帯域の絶対値で負けても、使い方で勝てる世界がまだ残っている。

参考文献

"LIMINAL: Exploring The Frontiers of LLM Decode Performance" (2025) arXiv:2507.14397
JEDEC JESD270-4 HBM4 Standard (2025)
SK Hynix HBM4 12-layer sample (March 2025) — 11.7 Gb/s, NVIDIA Rubin向け
"PRISM: Breaking the O(n) Memory Wall in Long-Context LLM Inference via O(1) Photonic Block Selection" (2026) arXiv:2603.21576

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up