0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

メモリ帯域49倍差、ローカルLLMの物理的限界

0
Posted at

RTX 4060で見えた壁は、帯域の壁だった

RTX 4060 8GBでQwen3.5-9Bを回すと、生成速度は約40 tok/s。推論時に内部で思考ステップを展開するthinking model(思考モデル)としては実用域に入る。だがモデルサイズを上げると急激に落ちる。27Bでは15 tok/s、32B Q4量子化でも10 tok/s前後。

この減速の原因はGPUの演算能力ではない。メモリ帯域だ。

LLMの推論(特にトークン生成フェーズ)は、モデルの重みをVRAMから読み出す速度で律速される。RTX 4060のGDDR6帯域は272 GB/s。4.1GBのモデルなら理論上66回/秒読めるが、9GBのモデルでは30回、18GBなら15回。実測値はキャッシュ効果で理論を上回るが、帯域が天井を決める構造は変わらない。

問題は、この天井がデータセンターとコンシューマでまったく違うスケールで動いていることだ。


データセンター側: HBM3→HBM3E→HBM4の帯域爆発

まずデータセンターGPUのメモリ帯域推移を見る。

[HBMメモリ帯域の進化]

世代         帯域/スタック   スタック数   GPU総帯域     代表GPU
HBM2e        400 GB/s        5           2.0 TB/s     A100 (80GB)
HBM3         670 GB/s        5           3.35 TB/s    H100 (80GB)
HBM3E        800 GB/s        6           4.8 TB/s     H200 (141GB)
HBM4         2.0+ TB/s       8           ~22 TB/s     Vera Rubin (NVIDIA公式)

帯域増加率: 世代あたり1.5-2.0倍
4世代で約8倍

SK Hynixは2026年Q3にHBM4の量産を開始する。16層積層、48GB/スタック、帯域2 TB/s超。インターフェース幅は2048ビット(HBM3Eの2倍)。

NVIDIAのVera Rubin世代がこれを搭載すると、単一GPUで約22 TB/sのメモリ帯域になる(NVIDIA公式発表値)。H100の3.35 TB/sから約6.6倍。


コンシューマ側: GDDR6→GDDR7の帯域増加

一方コンシューマGPUはこうだ。

[コンシューマGPU メモリ帯域の推移]

GPU              メモリ種     バス幅    帯域       VRAM
RTX 3060         GDDR6       192bit    360 GB/s   12GB
RTX 4060         GDDR6       128bit    272 GB/s   8GB
RTX 4060 Ti      GDDR6       128bit    288 GB/s   8/16GB
RTX 5060 Ti      GDDR7       128bit    448 GB/s   16GB
RTX 5060         GDDR7       128bit    448 GB/s   8GB

帯域増加率: 世代あたり1.2-1.6倍

RTX 5060 TiはGDDR7採用で448 GB/s。RTX 4060比で65%増。数値だけ見れば順当な進化に見える。

だがバス幅は128ビットのまま。帯域増加はメモリチップの速度(28 Gbps)に依存しており、アーキテクチャレベルでの改善ではない。GDDR7のチップ速度が頭打ちになれば、バス幅を広げない限り帯域は伸びない。


格差は縮まらない。広がっている

数値を並べると構造が見える。

[データセンター vs コンシューマ 帯域格差]

世代          DC帯域        Consumer帯域    格差倍率
2022 (A100)   2.0 TB/s      360 GB/s        5.6x
2023 (H100)   3.35 TB/s     272 GB/s       12.3x
2024 (H200)   4.8 TB/s      288 GB/s       16.7x
2026 (HBM4)   ~22 TB/s      448 GB/s       ~49x

2022年の格差は5.6倍だった。2026年には約49倍に拡大する(Vera Rubin帯域はNVIDIA公式発表値)。

これはハイエンドGPU(RTX 4090: 1,008 GB/s)を持ち出しても根本的に変わらない。RTX 5090がGDDR7で~1.8 TB/sに達しても、HBM4 GPUとの差は9倍以上。帯域アーキテクチャの構造的格差は消えない。


なぜこの格差が生まれるのか

HBMとGDDRは物理的に別物

HBM(High Bandwidth Memory)はDRAMダイを垂直に積層し、TSV(Through-Silicon Via)で接続する。1スタックあたり1024ビット以上のバス幅を持つ。

GDDRはPCB上のチップとGPUダイをはんだバンプで接続する。バス幅はPCBの配線本数に制約される。128ビットが主流、ハイエンドでは384-512ビット。

[帯域 = バス幅 × 転送速度]

HBM4:  2048bit × ピン速度 = 2.0+ TB/s (1スタック、SK Hynix公表値)
GDDR7: 128bit  × 28 Gbps  = 448 GB/s  (全チップ合計)

バス幅の差: 16倍 (2048 vs 128)
速度の差:   GDDRのほうがピン速度は高い
結果:       バス幅の物理的優位が帯域差を生む

HBMは速度で負けても、バス幅の物理的優位で帯域を圧倒する。TSVは数千本の垂直配線を数mm角のダイ面積に詰め込める。PCB配線では物理的に不可能な密度だ。

コストが許さない

HBM4の価格はスタックあたり推定$500前後(業界アナリスト推定値)。8スタック載せれば$4,000がメモリだけのコスト。コンシューマGPU全体の価格帯をはるかに超える。

仮にコンシューマGPUにHBMを1スタック載せたとしても、$299のGPUに$500のメモリは製品として成立しない。GDDRはチップあたり$5-15。コスト構造が根本的に違う。


CXLは救世主か?

CXL(Compute Express Link)3.0がデータセンターのメモリプーリングとして注目されている。PCIe 6.0ベースで片方向128 GB/s(x16レーン)の帯域を持ち、メモリの共有化・階層化を可能にする。

だがLLM推論の帯域問題にCXLは効かない

理由は単純で、CXLの読み出し帯域128 GB/sはHBM4の1スタック2 TB/sの16分の1。GPUからCXLメモリへの読み出しはGPU-HBM直結の1/16の速度になる。LLM推論でモデル重みをCXL越しに読むと、生成速度が1/16に落ちる。

CXLの価値はメモリ容量の拡張であって、帯域の拡張ではない。巨大モデルを載せるための容量は確保できるが、推論速度は帯域で決まる。半導体分析メディアSemiAnalysisが "CXL Is Dead In The AI Era" と書いた核心はここにある。


ローカルLLMユーザーに何ができるか

帯域格差は物理法則とコスト構造に根ざしている。個人が覆せるものではない。だが帯域制約の中で最大効率を引き出す手段はある。

1. 量子化は帯域ハック

Q4_K_M量子化は16bitモデルの1/4のサイズにする。これは「4倍の帯域を手に入れた」のと等価だ。

[量子化と実効帯域の関係]

量子化      モデルサイズ    272 GB/sでの理論速度
FP16        18.0 GB        15.1 tok/s
Q8_0         9.0 GB        30.2 tok/s
Q4_K_M       4.5 GB        60.4 tok/s
Q3_K_S       3.4 GB        80.0 tok/s

Q4は実質的に帯域を4倍にしている
精度損失はモデルとベンチマーク次第だが、帯域4倍のトレードオフとしては合理的

2. KVキャッシュが帯域を節約する

Token生成の毎ステップでモデル全体を読む必要はない。KVキャッシュに過去の計算結果を保持すれば、attention層のキーとバリューを再計算せずに済む。

llama.cppの実測でRTX 4060が理論上限を超える速度を出すのはこの効果だ。キャッシュヒット率が高いほど実効帯域が上がる。Flash Attentionはこのキャッシュ効率をさらに高める。

3. Speculative Decodingで帯域効率を上げる

ドラフトモデル(小さいモデル)で複数トークンを先読みし、メインモデルで一括検証する。検証は並列実行できるため、帯域利用効率が上がる。

RTX 4060でQwen3.5-9Bに対して1.5Bドラフトモデルを使った場合、承認率(ドラフトの出力がメインモデルに採用される割合)次第で1.3-1.5倍の速度向上が見込める。帯域は同じでもスループットが上がる。

4. モデル選択が最大のレバー

帯域が限られるなら、同じ帯域予算内で最高品質のモデルを選ぶことが最重要になる。

[RTX 4060 8GB — 帯域予算内の最適モデル選択]

用途              推奨モデル              理由
汎用対話          Qwen3.5-9B Q4_K_M      帯域内で最大の知性
コード生成        DeepSeek-Coder-V2-Lite  16B MoEで活性2.4B
翻訳              NLLB-200-3.3B           専用モデルが帯域効率最高
RAG               BGE-M3 + Qwen2.5-7B    埋め込みは小型で十分

帯域制約下では、1つの巨大モデルより複数の専用モデルを使い分けるほうが合理的だ。


帯域格差は悪いことだけではない

ここまで格差の話をしたが、1つ逆説的な事実がある。

データセンターの帯域爆発は、ローカルLLMの品質を引き上げる。 HBM4世代の帯域があるから、より大規模なモデルの訓練が可能になる。訓練されたモデルを量子化してローカルに持ってくれば、8GBのGPUでも恩恵を受ける。

帯域格差が広がるほど、訓練と推論の分業が合理的になる。データセンターが巨大モデルを訓練し、個人が量子化して使う。この構造はむしろ健全だ。

問題になるのは、推論時にリアルタイム帯域が必要なケース——対話的なコード補完、リアルタイム翻訳、長文一括処理。ここではローカルの帯域制約がそのまま体験品質の天井になる。

RTX 5060 Tiの448 GB/sは、Q4量子化した9Bモデルで約100 tok/s。日常的な対話なら十分。だがフロンティアモデルのローカル推論は、帯域が桁違いに足りない。この現実を受け入れた上で、量子化とモデル選択で最大効率を追求するのが、2026年の個人スケール最適解だ。


参考

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?