メモリ帯域13倍差の現実
H100: 3.35 TB/s。RTX 4060: 272 GB/s。
同じ「GPU」を名乗りながら、メモリ帯域は13倍違う。ローカルLLMの推論速度がメモリ帯域律速であることは前回までの記事で検証した。この帯域差がそのまま推論パフォーマンスの天井差になる。
「次世代でRTX 5060にHBMが載れば解決する」——この期待は構造的に間違っている。HBMがコンシューマGPUに載ることは、少なくとも2028年まではない。そしてその理由は技術的困難ではなく、サプライチェーンと経済合理性の問題だ。
HBMとGDDRは何が違うのか
そもそもHBM(High Bandwidth Memory)とGDDR6/GDDR7の違いを物理構造から整理する。
GDDR6 (RTX 4060):
┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐
│DRAM │ │DRAM │ │DRAM │ │DRAM │ ← 基板上にチップが分散配置
└──┬──┘ └──┬──┘ └──┬──┘ └──┬──┘
│ │ │ │ ← PCB配線 (数cm)
┌──┴────────┴────────┴────────┴──┐
│ GPU Die │
└─────────────────────────────────┘
バス幅: 128bit (RTX 4060) / 256bit (RTX 4090)
帯域: 272 GB/s / 1008 GB/s
HBM3 (H100) / HBM3E (H200/B200):
┌─────────────────────────────────┐
│ Interposer (Si) │
│ ┌───┐ ┌───┐ ┌───┐ ┌───┐ │
│ │HBM│ │HBM│ │GPU│ │HBM│ │ ← シリコンインターポーザ上に密接配置
│ │ │ │ │ │ │ │ │ │
│ │8Hi│ │8Hi│ │Die│ │8Hi│ │ ← 各スタックは8層ダイ積層
│ └───┘ └───┘ └───┘ └───┘ │
└─────────────────────────────────┘
バス幅: 1024bit × 5スタック = 5120bit (H100)
帯域: 3.35 TB/s (H100 HBM3)
決定的な違いは3つある。
1. 物理的距離: GDDRチップはGPUダイから数cm離れた基板上にある。HBMはシリコンインターポーザ上にGPUダイと隣接して置かれる。距離が短いほど配線のRC遅延と消費電力が下がる。
2. バス幅: GDDR6は32bit/チップで、RTX 4060の128bitバスは4チップ分。HBMは1スタックで1024bit。バス幅が広いほど1クロックあたりのデータ転送量が増える。
3. 積層構造: HBM3Eは8枚のDRAMダイをTSV(Through-Silicon Via、シリコン貫通ビア)で垂直に積層する。フットプリントが小さいまま容量と帯域を確保できる。
HBMのコストはGDDRの5〜10倍
SK Hynixの2025年報告によれば、HBM3Eの1GBあたり製造コストはDDR5の5倍以上とされている。業界アナリストのTrendForceは2025-2026年のHBMプレミアムをGDDR比で5〜8倍と推定している。
コスト差の要因を分解すると:
| コスト要因 | GDDR6 | HBM3E | 差の理由 |
|---|---|---|---|
| ダイ積層 | なし(単層) | 8層TSV接合 | TSV加工+接合工程 |
| インターポーザ | 不要 | シリコンインターポーザ必須 | 追加のシリコンウェーハ |
| テスト | チップ単体 | 積層後のKGD (Known Good Die) 保証 | 不良1枚でスタック全体廃棄 |
| パッケージ面積 | GPU基板のみ | CoWoS (Chip on Wafer on Substrate) | TSMC CoWoS容量がボトルネック |
| 歩留まり | 成熟(>95%) | 積層歩留まり×単層歩留まり^8 | 指数的に歩留まりが下がる |
RTX 4060のGDDR6 8GBのメモリコストは推定$20-30程度。同容量のHBM3Eなら$150-240になる。8GB分のHBMだけで、RTX 4060のGPU全体BOM(部品原価)の半額に達する。
サプライチェーンがすべてを決めている
仮にNVIDIAがコストを許容してコンシューマGPUにHBMを載せたいと思っても、物理的に不可能な状況がある。
CoWoS容量の制約
HBMをGPUに接続するには、TSMCのCoWoS(Chip on Wafer on Substrate)パッケージング技術が必要だ。2025-2026年のCoWoS生産能力は月間約3.5〜4万枚(300mmウェーハ換算)と推定されている。
この容量の大部分はNVIDIAのH100/B200、AMDのMI300X、そしてGoogleのTPUに割り当てられている。データセンターAIチップの需要が爆発的に伸びている2026年、コンシューマGPU向けにCoWoS容量を回す余裕はない。
HBMの供給量自体の制約
HBMを製造できるのは実質3社: SK Hynix(シェア約50%)、Samsung(約40%)、Micron(約10%)。2026年のHBM総生産量はウェーハ投入ベースで月間5-6万枚と推定され、そのほぼ全量がデータセンター向けAIチップに出荷されている。
SK HynixのCEOが2025年の決算発表で述べたのは明確だ: 「HBMの生産能力は2026年まで完売済み」。コンシューマGPU向けに回す在庫が存在しない。
NVIDIAの選択: GDDR7で妥協する合理性
RTX 5090はGDDR7を採用した(32GB、512bitバス)。帯域は約1.8 TB/sで、GDDR6比約1.8倍。HBMの3.35 TB/sには及ばないが、コスト・供給・消費電力のバランスでは合理的な選択だ。
NVIDIAの立場から見た判断軸:
| 判断基準 | HBM3E | GDDR7 | 判定 |
|---|---|---|---|
| 帯域 | 3.35 TB/s | ~1.8 TB/s | HBM ○ |
| GB単価 | $15-30/GB | $2-4/GB | GDDR7 ○ |
| 供給確保 | 完売済み | 潤沢 | GDDR7 ○ |
| 消費電力/GB | ~3.5W/GB (積層効率) | ~5W/GB | HBM ○ |
| パッケージ | CoWoS必須 | 標準BGA | GDDR7 ○ |
| ターゲット市場 | データセンター($30K+) | コンシューマ($500-2000) | 用途分離 |
コンシューマGPUの価格帯($300〜$2000)でHBMのコストを吸収することは不可能。RTX 4060の$299という価格設定でHBM8GBを載せたら、利益率がマイナスになる。
ローカルLLMユーザーへの影響
この構造が意味すること: メモリ帯域のボトルネックは、コンシューマGPUでは緩和されても解消されることはない。
RTX 4060(272 GB/s)→ RTX 5060世代(推定400-500 GB/s、GDDR7)で帯域は1.5-2倍になる。しかしモデルサイズも同時に大きくなる。7Bが主流だった時代から14B-32Bが「標準」になりつつある今、帯域の改善分はモデルの膨張に食われる。
私のRTX 4060でのQwen2.5-7B Q4_K_M推論: 72.8 tok/s。これがGDDR7世代で2倍の帯域を得たとしても、14Bモデル(パラメータ2倍)を動かせば速度はほぼ同じだ。
def estimate_token_speed(bandwidth_gbs, model_params_b, quant_bytes=0.5):
"""メモリ帯域律速時のトークン生成速度推定
トークン生成はdecode phaseでメモリ帯域律速。
1トークンあたり全パラメータを1回読む必要がある。
"""
model_size_gb = model_params_b * quant_bytes # Q4 ≈ 0.5 bytes/param
tokens_per_sec = bandwidth_gbs / model_size_gb
return round(tokens_per_sec, 1)
scenarios = [
("RTX 4060 + 7B Q4", 272, 7),
("RTX 5060推定 + 7B Q4", 500, 7),
("RTX 5060推定 + 14B Q4", 500, 14),
("RTX 5060推定 + 32B Q4", 500, 32),
("H100 + 70B Q4", 3350, 70),
]
for name, bw, params in scenarios:
speed = estimate_token_speed(bw, params)
print(f"{name:30s}: {speed:6.1f} tok/s")
出力(理論上限値、実測はモデルがGPU全層オフロードの場合その80-95%程度):
| 構成 | 理論上限 | 実測推定 |
|---|---|---|
| RTX 4060 + 7B Q4 | 77.7 tok/s | ~65-75 tok/s |
| RTX 5060推定 + 7B Q4 | 142.9 tok/s | ~115-135 tok/s |
| RTX 5060推定 + 14B Q4 | 71.4 tok/s | ~57-68 tok/s |
| RTX 5060推定 + 32B Q4 | 31.3 tok/s | ~25-30 tok/s |
| H100 + 70B Q4 | 95.7 tok/s | ~76-90 tok/s |
RTX 5060で14Bを動かすと、現行RTX 4060で7Bを動かすのとほぼ同じ体感速度になる。 帯域が増えてもモデルが大きくなれば体感は変わらない。これがメモリ帯域のレッドクイーン効果だ。
もちろん反論はある。7Bクラスのモデルが消えるわけではない。Phi-3、Qwen2.5、Llama 3.2など、小型モデルの品質向上は顕著で、「あえて7Bに留まる」戦略は十分合理的だ。その場合RTX 5060の帯域向上は純粋に速度向上として享受できる。しかし「同じ品質のタスクをより大きいモデルで解く」方向に進むユーザーにとっては、帯域向上分はモデルサイズに吸収される。どちらの道を選ぶかはユーザー次第だが、帯域格差という構造自体は変わらない。
唯一の脱出口: ユニファイドメモリ
Apple M4の戦略は、このジレンマに対する1つの回答だ。GPUとCPUがメモリを共有するユニファイドメモリアーキテクチャでは、GDDR/HBMの二項対立自体が存在しない。
M4 Pro/Maxのメモリ帯域は273-546 GB/s。数字だけ見るとRTX 4060とRTX 4090の間に位置する。しかしユニファイドメモリの利点は帯域だけではない:
- 容量制限の緩和: M4 Maxは128GBのRAMを持てる。70Bモデルを量子化なしでロード可能
- データコピー不要: GPU⇔CPU間のデータ転送がゼロ。推論のオーバーヘッド削減
- 電力効率: 転送距離が短く、LPDDR5のため消費電力が低い
ただしApple SoCのGPU演算性能自体はNVIDIA GPUに劣る。メモリ帯域律速のdecodeフェーズでは互角だが、compute律速のprefillフェーズでは差が出る。私の判断としては、「大型モデルを載せたい」ならM4 Max一択、「7B-14Bを速く回したい」ならRTX一択——用途が違えば最適解も違う。
2026年時点でローカルLLMユーザーが取れる選択肢を整理すると:
- RTX 4060/5060 (8-12GB GDDR): 7B-14Bモデルに最適化。帯域律速は受け入れ、量子化とKVキャッシュ圧縮で戦う
- Apple M4 Pro/Max (36-128GB Unified): 大型モデルを載せられるが、tok/sはGPU帯域に縛られる
- RTX 4090 (24GB GDDR6X) / RTX 5090 (32GB GDDR7): 32Bモデルまで実用的。帯域もそこそこ。価格が$1600-2000
- クラウドAPI: 帯域制約から完全解放。ただしコストが推論量に比例
HBMが降りてくる日は来るのか
2028-2030年に向けた変化の可能性はある。
HBM4の生産拡大: SK Hynixは2027年からHBM4を量産予定。生産能力が拡大すれば、一部がコンシューマ向けに回る可能性はゼロではない。
GDDR7+の進化: GDDR7の次世代では帯域2 TB/s超が見込まれる。HBMとGDDRの帯域差が縮まれば、コンシューマ向けHBMの必要性自体が薄れる。
新パッケージング��術: TSMCのSoIC、IntelのFoveros Directなど、CoWoS以外の高密度パッケージング技術が成熟すればコスト低下の道はある。
私の予測: コンシューマGPUにHBMが載るのは、早くて2029年。ただしそれはフラッグシップ($2000+)のみで、$299のRTX X060クラスには2030年代まで来ない。ローカルLLMを8-12GB GDDR環境で使い続ける前提で最適化戦略を組むのが、現実的な判断だ。
まとめ: 帯域格差は構造的であり、技術的ではない
RTX 4060にHBMが載らないのは、NVIDIAの怠慢ではない。サプライチェーン(CoWoS容量、HBM供給量)と経済合理性(コンシューマ価格帯ではHBMのコストを吸収不可能)が構造的に阻んでいる。
この構造を理解した上で、8GB環境でできることを最大化する——量子化の最適選択、KVキャッシュ圧縮、FlashAttentionの活用、短ループエージェント設計。帯域が足りないなら、帯域を効率的に使う技術で戦う。
メモリ帯域の格差は今後も広がる。HBM4が出ればデータセンターは10 TB/s超に到達し、コンシューマGDDR7は2 TB/s程度で推移する。5倍の差は縮まらない。ローカルLLMユーザーにとって重要なのは、「いつHBMが降りてくるか」を待つことではなく、「GDDR帯域で何ができるか」を極めることだ。