0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

HBM4は壁を壊さなかった、後退させただけだ

0
Posted at

HBM4は壁を壊さなかった、後退させただけだ

HBMの帯域は世代ごとに倍増してきた。

HBM2E (2020): 410 GB/s per stack — 1024-bit, 3.2 Gb/s/pin
HBM3  (2022): 819 GB/s per stack — 1024-bit, 6.4 Gb/s/pin
HBM3E (2024): 1.2 TB/s per stack — 1024-bit, 最大9.8 Gb/s/pin (JEDEC上限、ベンダーにより異なる)
HBM4  (2026): 2.0 TB/s per stack — 2048-bit, 8.0 Gb/s/pin

この表に違和感がないか。

HBM4のJEDEC基本仕様のピン速度は8.0 Gb/s。HBM3Eの最大仕様9.8 Gb/s(Samsung実装値、SK Hynixは8 Gb/s)より低い。帯域が倍になったのに、基本仕様のピンは上がっていない。帯域増加の大部分がインターフェース幅の倍増(1024→2048ビット)から来ている。

速度を上げるのではなく、道幅を広げた。これがHBM4の設計判断だ。そしてこの判断には、物理的な限界が絡んでいる。


ピン速度が頭打ちになった理由

信号品質の壁

ピン速度の推移を整理すると、成長率の減速が明確になる:

世代 ピン速度 前世代比
HBM2E 3.2 Gb/s 2020
HBM3 6.4 Gb/s 2022 2.0x
HBM3E 最大9.8 Gb/s※ 2024 1.53x
HBM4 8.0 Gb/s (JEDEC基本) 2026 0.82x (減少)

※HBM3Eの9.8 Gb/sはJEDEC上限値(Samsung実装)。SK Hynix HBM3E(B200搭載品)は8 Gb/s。ベンダー実装はJEDEC基本仕様を超えることが多い。

10 Gb/sを超えるマイクロバンプ経由の信号伝送は、TSV(Through-Silicon Via)の寄生容量とインピーダンス不整合でジッターが増大する。HBM3Eの9.8 Gb/sはこの物理的限界に近い。

SK Hynixが2025年3月にサンプル出荷した12層HBM4は11.7 Gb/sを記録した(NVIDIA Rubin要求仕様に対応)。ただしJEDECの基本仕様は8 Gb/s。ベンダー実装がJEDEC基本を超えるのはHBM3E世代と同様であり、量産品の実効速度は8-12 Gb/sの範囲になると見込まれる。

戦略 メリット リスク 限界
ピン速度を上げる 面積増加なし ジッター増大、歩留まり低下、電力増加 ~10 Gb/s (TSV寄生容量)
インターフェース幅を広げる 信号品質を維持したまま帯域倍増 チップ面積増加、パッケージコスト増 バンプピッチ (40μm → 36μm → ?)

HBM4は後者を選んだ。安全策だが、確実に帯域が取れる。


2 TB/sでLLM推論はどう変わるか

A100 → H100 → B200 → 次世代の帯域推移

GPU HBM スタック数 帯域
A100 80GB HBM2E 5 2.0 TB/s 2020
H100 80GB HBM3 5 3.35 TB/s 2022
H200 HBM3E 6 4.8 TB/s 2024
B200 HBM3E 8 8.0 TB/s 2025
次世代 (推定) HBM4 8 16 TB/s 2026-27

B200→次世代で帯域2倍。これでLLM推論はどれだけ速くなるか。

デコードの帯域ボトルネック再計算

KVキャッシュ記事(別記事)で示した計算を、HBM4世代で再計算する。

Llama-3-70B(FP16で140GB)を例に、デコードの理論最大速度 = 帯域 / モデルサイズ で計算する:

GPU HBM 帯域 70B理論最大速度
A100 80GB HBM2E ×5 2.0 TB/s 14 t/s
H100 80GB HBM3 ×5 3.35 TB/s 24 t/s
H200 HBM3E ×6 4.8 TB/s 34 t/s
B200 HBM3E ×8 8.0 TB/s 57 t/s
HBM4世代(推定) HBM4 ×8 16 TB/s 114 t/s

HBM4世代でもA100の8倍。しかし10,000 t/sには程遠い。

LIMINAL論文の結論

NVIDIA Researchを中心とした研究チーム(Davies et al., arXiv:2507.14397)がLIMINALという分析モデルで予測した結果:

LIMINALモデルの実測誤差は7.6%(MAE)。そのモデルが示す4つの壁: 計算量、メモリ容量、メモリ帯域、集団通信。結論: 10,000 t/s超にはハードウェア進化だけでなくアルゴリズムの根本的革新が必要。HBM4でも帯域の壁は突破できない。壁が少し後退するだけだ。

10,000 t/sは1トークンあたり0.1msでの生成を意味する。70Bモデル(FP16で140GB)なら10,000 × 140 = 1,400 TB/sの帯域が必要。HBM4 8スタックの16 TB/sはその1/88。桁が2つ足りない。帯域スケーリングだけで10,000 t/sに届くことは、HBM世代を何回重ねても不可能だとLIMINALは示している。


コンシューマGPUへの波及

RTX 4060 → 次世代の帯域見通し

GPU メモリ 帯域
RTX 3060 GDDR6 360 GB/s 2021
RTX 4060 GDDR6 272 GB/s 2023
RTX 5060 GDDR7 448 GB/s 2025
RTX 6060 (推定) GDDR7X? ~550-600 GB/s 2027-28

注意: RTX 4060は前世代より帯域が下がった(360→272)。NVIDIAはコンシューマではコスト優先で帯域を削ることがある。RTX 5060でGDDR7になっても、448 GB/sはHBM2E 1スタック相当にすぎない。

データセンターとの差: B200 (8 TB/s) / RTX 4060 (272 GB/s) = 約30倍。HBM4世代 (16 TB/s) / RTX 6060推定 (550 GB/s) = 約29倍。差は30倍前後で安定しており、コンシューマがデータセンターに追いつくことはない。

ローカルLLMユーザーへの意味

帯域でデコード速度が決まるなら、ローカルLLMの未来は暗いのか。

悲観的に見れば: 272 GB/sでQwen2.5-32B Q4_K_M (~20GB) → ~14 t/sが上限。GDDR7で448 GB/sになっても~22 t/s。帯域では勝てない。

現実的に見れば: 量子化がさらに進む(Q2_K, 1.5bit)→モデルサイズ縮小で帯域要件緩和。小モデルの品質向上(Qwen3.5 4Bクラス)→大モデル不要化。マルチモデル構成→帯域を効率的に使う。ブロック選択最適化(PRISM的ソフトウェア版)→読む量を減らす。

核心: 帯域を増やす競争は負ける。帯域を使わない方法で勝つ。

データセンターGPUの帯域は2年で2倍のペースで伸びている。コンシューマGPUの帯域はコスト優先で削られることすらある(RTX 3060→4060で360→272 GB/sに減少)。この差は構造的であり、縮まらない。HBM4の2 TB/s/stackは2026年のデータセンター向けであり、コンシューマに降りてくることは物理的にない(HBMはインターポーザ実装が必須で、コンシューマGPUのパッケージに収まらない)。

ローカルLLMが戦う場所は帯域の絶対値ではない。帯域あたりの仕事量を最大化するソフトウェアとモデル設計だ。


帯域の壁は3方向から攻められている

現時点で、メモリ帯域のボトルネックに対するアプローチは3層に分かれる。

Layer 1: ハードウェア帯域の増加
  HBM3→HBM3E→HBM4 (2年で2x)
  GDDR6→GDDR7 (仕様上は最大1.6x程度、実製品は実装依存)
  → 確実だが、10 Gb/s/pinの物理限界で減速中

Layer 2: 読み出し量の削減
  量子化 (FP16→Q4_K_M→Q2_K: 4-8x削減)
  Sparse Attention (KVキャッシュの大部分をスキップ — 論文により削減率は異なる)
  ブロック選択 (PRISM: 16x削減)
  → ソフトウェアで即効性がある

Layer 3: 読み出し自体の排除
  PIM (メモリ内演算: データを動かさずに計算)
  キャッシュ最適化 (頻出パターンをSRAMに保持)
  → ハードウェア変更が必要だが、根本的な解決

実効帯域 = L1 × L2 × L3
HBM4 + Sparse Attention + PIM が全て噛み合えば
  16 TB/s × 10x削減(推定) × 2x PIM効率(推定) = 実効 320 TB/s相当
  これなら70Bモデルで2,285 t/s — 現在のA100比 163倍
  ※ 10x, 2x は技術の組み合わせによる概算。実測値ではない

10,000 t/sにはまだ足りないが、現在の14 t/sから2,000 t/s超への跳躍は、どの単一技術でも不可能で、3層の掛け算で初めて見えてくる。

HBM4は「帯域を2倍にした」のではなく、「3層アプローチの1層目を更新した」にすぎない。残りの2層はソフトウェアとアーキテクチャの仕事であり、そこにローカルLLMが戦える余地がある。RTX 4060の272 GB/sでも、Layer 2を最大化すれば実効帯域は数倍になる。帯域の絶対値で負けても、使い方で勝てる世界がまだ残っている。


参考文献

  1. "LIMINAL: Exploring The Frontiers of LLM Decode Performance" (2025) arXiv:2507.14397
  2. JEDEC JESD270-4 HBM4 Standard (2025)
  3. SK Hynix HBM4 12-layer sample (March 2025) — 11.7 Gb/s, NVIDIA Rubin向け
  4. "PRISM: Breaking the O(n) Memory Wall in Long-Context LLM Inference via O(1) Photonic Block Selection" (2026) arXiv:2603.21576
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?