メモリの中で計算すればGPUは要らないのか
LLM推論のボトルネックはGPUの演算能力ではない。メモリ帯域だ。
2026年1月のArXiv論文(arXiv:2601.05047)はこう断言している。LLM推論における主要な課題はメモリとインターコネクトであり、計算ではない。GPUの演算器は半分以上の時間、データの到着を待って遊んでいる。
ならば発想を変える。データが格納されている場所で計算すれば、データを移動する必要がなくなる。これがProcessing-in-Memory(PIM)の基本思想だ。SK HynixのAiMは実製品として稼働中。Samsungは2026年2月にLPDDR5X-PIMを発表した。HBM4はロジックダイを統合し、メモリスタックそのものがコプロセッサになる。
GPUの時代は終わるのか。結論から言えばNOだ。だがPIMは確実にLLM推論のアーキテクチャを変える。どこまで変わり、どこで止まるのかを、論文と製品データから読み解く。
メモリの壁: なぜGPUは遊んでいるのか
LLM推論の2つのフェーズと、それぞれのボトルネック:
Prefillフェーズ (プロンプト処理):
大量のトークンを一括で処理
行列積計算 → 計算律速 (Compute-bound)
GPUの演算器がフル稼働
Decodeフェーズ (トークン生成):
1トークンずつ自己回帰的に生成
KVキャッシュの読み出し → メモリ帯域律速 (Memory-bound)
GPUの演算器はデータ待ちで遊ぶ
問題はDecodeフェーズ。LLMの推論時間の大半はDecodeに費やされる。そしてDecodeはメモリ帯域が律速。
# RTX 4060 8GB でのメモリ帯域ボトルネック
rtx_4060_specs = {
"compute": "15.11 TFLOPS (FP16)",
"memory_bandwidth": "272 GB/s",
"arithmetic_intensity_required": "15110 / 272 = 55.6 FLOP/byte",
}
# LLM Decode の実際の演算強度
llm_decode = {
"typical_arithmetic_intensity": "1-2 FLOP/byte",
"bottleneck": "memory bandwidth (272 GB/sの壁)",
"gpu_utilization": "< 5% of compute capacity during decode",
}
# GPUの演算能力の95%以上がDecodeフェーズで遊んでいる
A100 80GBでも同じ構造。HBM2eの帯域は2 TB/s。演算能力312 TFLOPS。演算強度は156 FLOP/byte要求に対し、Decodeは1-2 FLOP/byte。帯域が50-100倍足りない。
PIMの原理: データを動かすな、計算を動かせ
従来アーキテクチャ:
DRAM/HBM → バス → GPU演算器 → バス → DRAM/HBM
データが往復する。バスの帯域が律速。
PIMアーキテクチャ:
DRAM/HBM内部の演算ユニット → 結果だけ出力
データは動かない。演算が動く。
内部帯域はバス帯域より桁違いに高い。
HBMの内部帯域(バンク合計)は外部帯域の数十倍ある。データをHBMの外に出さずに中で計算すれば、帯域の壁は消える。
実製品の状況
SK Hynix AiM (Accelerator in Memory):
- GDDR6ベースの商用PIMプロセッサ
- メモリバンクごとに演算ユニット搭載
- 実環境で稼働実績あり(AiMXカードとして製品化)
- GEMV(行列ベクトル積)に特化
Samsung LPDDR5X-PIM (2026年2月発表):
- モバイル向けLPDDR5Xにin-memory compute搭載
- エッジAI推論のエネルギー効率を大幅改善(業界分析では「数倍〜」との評価)
- スマートフォン/エッジデバイス向け
Samsung/SK Hynix HBM4計画:
- ロジックダイをHBMスタックに統合
- メモリスタック自体がコプロセッサに
- 2026年2月から量産開始
- NVIDIAの「Rubin」アーキテクチャ向け
PIMはLLM推論をどう変えるか
2025-2026年のArXiv論文群が、PIM × LLM推論の具体的なアーキテクチャを提案している。
HPIM: 異種PIMの統合 (arXiv:2509.12993)
HPIM (Heterogeneous PIM) アーキテクチャ:
SRAM-PIM (低レイテンシ):
- 注意機構のスコア計算
- 小さいが超高速
- GPUのL2キャッシュ相当の位置
HBM-PIM (高帯域・大容量):
- KVキャッシュの格納と処理
- 大容量だが中速
- メインメモリ相当の位置
両者を並列実行:
SRAM-PIM: attention score計算 ← 低レイテンシ
HBM-PIM: KV乗算 ← 高帯域
→ 自己回帰Decodeの直列依存を並列化
これはメモリ階層全体をPIM化する構想。キャッシュもメインメモリも、それぞれの強みを活かして演算する。
PAM: メモリ階層横断PIM (arXiv:2602.11521)
PAM (Processing Across Memory):
HBM-PIM: ホットデータ (頻繁にアクセス)
DRAM-PIM: ウォームデータ (中程度のアクセス)
SSD-PIM: コールドデータ (稀にアクセス)
→ データの温度に応じて処理場所を最適化
→ LLMの長コンテキスト (100K+トークン) に対応
モデル全体がHBMに載らない場合(我々RTX 4060 8GBユーザーの日常)、メモリ階層を跨いだPIMが部分オフロードの代替になる可能性がある。
PIMがGPUを殺せない3つの理由
PIMは魅力的だが、GPUを不要にはしない。
1. 訓練には使えない
LLM訓練はCompute-boundだ。大規模な行列積、勾配計算、パラメータ更新。これらはGPUの高い演算密度が必要。PIMのメモリ内演算ユニットは行列ベクトル積(GEMV)には向いているが、行列行列積(GEMM)のスループットはGPUに遠く及ばない。
# 訓練 vs 推論の演算特性
workload_characteristics = {
"training": {
"dominant_op": "GEMM (matrix-matrix multiply)",
"arithmetic_intensity": "高 (100+ FLOP/byte)",
"bottleneck": "compute",
"pim_advantage": "なし (GEMMはGPUの独壇場)",
},
"inference_prefill": {
"dominant_op": "GEMM (batched)",
"arithmetic_intensity": "中-高",
"bottleneck": "compute (バッチサイズ依存)",
"pim_advantage": "限定的",
},
"inference_decode": {
"dominant_op": "GEMV (matrix-vector multiply)",
"arithmetic_intensity": "低 (1-2 FLOP/byte)",
"bottleneck": "memory bandwidth",
"pim_advantage": "★大きい",
},
}
PIMの勝ち目はinference decodeだけ。訓練とprefillはGPUの圧勝。
2. プログラミングモデルの未成熟
PIMを活用するには、データ配置と計算のマッピングを明示的にプログラムする必要がある。CUDAのようなGPUプログラミングモデルはない。
GPU:
ソフトウェアスタック成熟 (CUDA 15年の蓄積)
フレームワーク全対応 (PyTorch, TensorFlow, llama.cpp)
開発者エコシステム巨大
PIM:
ベンダー固有のAPI (SK Hynix AiM SDK, Samsung PIM SDK)
フレームワーク統合なし
開発者コミュニティ小規模
メモリ配置の手動最適化が必要
ハードウェアが存在しても、ソフトウェアスタックが追いつかなければ実用にならない。CUDAがGPUを計算プラットフォームにしたように、PIMにも「PIMのCUDA」が必要。現時点で存在しない。
3. コスト構造
PIMは通常のメモリより製造コストが高い。演算ユニットの追加面積、テスト工程の複雑化、歩留まり低下。
通常のHBM3E: ~$10-18/GB (2026年市場推定)
HBM-PIM: ~$20-30/GB (推定、演算ユニット追加分)
GPU (A100): ~$10,000 (80GB HBM2e含む)
PIMのROI成立条件:
推論サーバーの電力コスト削減 > PIMのプレミアム
→ 大規模データセンターでは成立する可能性
→ 個人ユーザーには当面関係なし
RTX 4060 8GBユーザーにPIMは来るのか
正直に言うと、消費者向けPIMは3-5年先の話だ。
現時点で利用可能なPIM:
- SK Hynix AiM: データセンター向け、個人購入不可
- Samsung LPDDR5X-PIM: モバイル向け、PCには非搭載
2027-2028年に期待されるもの:
- HBM4搭載GPUにPIM機能統合の可能性
- NVIDIAのRubinアーキテクチャがHBM4を採用
- ただしPIM機能のGPU統合は不明
消費者向け現実解:
今のところ、メモリ帯域問題への対処は
1. より高帯域なGPU (RTX 5090: GDDR7で約1.8 TB/s)
2. MoEモデルでアクティブパラメータを削減 (帯域要求を下げる)
3. Speculative decodingで実効帯域効率を上げる
ただし間接的な恩恵はある。データセンターでのPIM採用が進めば、クラウドAPI推論のコストが下がる。エネルギー効率の改善はトークン単価に反映される。
# PIMによる推論コスト改善の波及予測
cost_impact = {
"datacenter_direct": {
"timeline": "2026-2027",
"impact": "推論サーバーのエネルギー効率の大幅な改善が期待される(推定)",
"beneficiary": "クラウドAIプロバイダー",
},
"api_pricing": {
"timeline": "2027-2028",
"impact": "API推論コストの大幅削減",
"beneficiary": "APIユーザー",
},
"consumer_gpu": {
"timeline": "2028-2030",
"impact": "GDDR/HBMにPIM機能搭載",
"beneficiary": "ローカルLLMユーザー",
},
}
PIMが変える境界線
PIMはGPUを殺さない。だがGPUの仕事の境界線を変える。
現在の境界線:
GPU = 訓練 + 推論(全部GPU)
メモリ = データ格納のみ
PIM後の境界線:
GPU = 訓練 + Prefill (Compute-bound)
PIM = Decode (Memory-bound)
メモリ = データ格納 + Decode計算
推論のDecodeフェーズがPIMに移行すると、GPUはPrefillと訓練に特化できる。GPUの演算器が遊んでいた問題が解消される。
これは半導体産業の力学も変える。現在NVIDIAが独占的に握っている推論市場の一部が、メモリメーカー(Samsung、SK Hynix、Micron)に移る。TrendForce(2026年3月)の報道によれば、Samsung/SK Hynixは「NVIDIAに挑戦できる次世代AIメモリ」を探索中とされる。
推論市場の構造変化:
Before: NVIDIA GPU (演算+帯域を独占)
After: NVIDIA GPU (演算) + Memory Maker PIM (帯域)
→ 推論の半分がメモリメーカーの領域に
→ NVIDIAの推論GPUマージンに圧力
まとめ: メモリの壁は内側から崩れ始めている
冒頭の問い「メモリの中で計算すればGPUは要らないのか」への答え:
GPUは要る。訓練とPrefillには不可欠。だがDecodeの主役はGPUからPIMに移行する可能性が高い。
- PIMは推論Decodeのメモリ帯域ボトルネックを根本解決する
- SK Hynix AiMは稼働中、Samsung LPDDR5X-PIM は発表済み、HBM4にはロジックダイ統合
- ただし訓練には使えず、ソフトウェアスタックは未成熟、コストプレミアムがある
- 消費者向けは3-5年先。当面はMoE + Speculative Decodingが現実解
メモリの壁は外側(帯域増強)からではなく、内側(計算を中に入れる)から崩れ始めている。その波が個人のGPUに届くのはもう少し先だが、データセンターでは既に始まっている。
参考文献
- "Challenges and Research Directions for Large Language Model Inference Hardware" (2026) arXiv:2601.05047
- "HPIM: Heterogeneous Processing-In-Memory-based Accelerator for LLM Inference" (2025) arXiv:2509.12993
- "PAM: Processing Across Memory Hierarchy" (2026) arXiv:2602.11521
- "Memory Is All You Need: Compute-in-Memory Architectures for LLM Inference" (2024) arXiv:2406.08413
- TrendForce. "Beyond HBM: Samsung, SK hynix Explore Next-Gen AI Memory" (2026-03-10)
- Samsung. "LPDDR5X-PIM for AI Computing" (2026-02)