メモリの中で計算すればGPUは要らないのか

Posted at 2026-04-05

メモリの中で計算すればGPUは要らないのか

LLM推論のボトルネックはGPUの演算能力ではない。メモリ帯域だ。

2026年1月のArXiv論文（arXiv:2601.05047）はこう断言している。LLM推論における主要な課題はメモリとインターコネクトであり、計算ではない。GPUの演算器は半分以上の時間、データの到着を待って遊んでいる。

ならば発想を変える。データが格納されている場所で計算すれば、データを移動する必要がなくなる。これがProcessing-in-Memory（PIM）の基本思想だ。SK HynixのAiMは実製品として稼働中。Samsungは2026年2月にLPDDR5X-PIMを発表した。HBM4はロジックダイを統合し、メモリスタックそのものがコプロセッサになる。

GPUの時代は終わるのか。結論から言えばNOだ。だがPIMは確実にLLM推論のアーキテクチャを変える。どこまで変わり、どこで止まるのかを、論文と製品データから読み解く。

メモリの壁: なぜGPUは遊んでいるのか

LLM推論の2つのフェーズと、それぞれのボトルネック:

Prefillフェーズ (プロンプト処理):
  大量のトークンを一括で処理
  行列積計算 → 計算律速 (Compute-bound)
  GPUの演算器がフル稼働

Decodeフェーズ (トークン生成):
  1トークンずつ自己回帰的に生成
  KVキャッシュの読み出し → メモリ帯域律速 (Memory-bound)
  GPUの演算器はデータ待ちで遊ぶ

問題はDecodeフェーズ。LLMの推論時間の大半はDecodeに費やされる。そしてDecodeはメモリ帯域が律速。

# RTX 4060 8GB でのメモリ帯域ボトルネック
rtx_4060_specs = {
    "compute": "15.11 TFLOPS (FP16)",
    "memory_bandwidth": "272 GB/s",
    "arithmetic_intensity_required": "15110 / 272 = 55.6 FLOP/byte",
}

# LLM Decode の実際の演算強度
llm_decode = {
    "typical_arithmetic_intensity": "1-2 FLOP/byte",
    "bottleneck": "memory bandwidth (272 GB/sの壁)",
    "gpu_utilization": "< 5% of compute capacity during decode",
}

# GPUの演算能力の95%以上がDecodeフェーズで遊んでいる

A100 80GBでも同じ構造。HBM2eの帯域は2 TB/s。演算能力312 TFLOPS。演算強度は156 FLOP/byte要求に対し、Decodeは1-2 FLOP/byte。帯域が50-100倍足りない。

PIMの原理: データを動かすな、計算を動かせ

従来アーキテクチャ:

DRAM/HBM → バス → GPU演算器 → バス → DRAM/HBM
  データが往復する。バスの帯域が律速。

PIMアーキテクチャ:

DRAM/HBM内部の演算ユニット → 結果だけ出力
  データは動かない。演算が動く。
  内部帯域はバス帯域より桁違いに高い。

HBMの内部帯域（バンク合計）は外部帯域の数十倍ある。データをHBMの外に出さずに中で計算すれば、帯域の壁は消える。

実製品の状況

SK Hynix AiM (Accelerator in Memory):
  - GDDR6ベースの商用PIMプロセッサ
  - メモリバンクごとに演算ユニット搭載
  - 実環境で稼働実績あり（AiMXカードとして製品化）
  - GEMV（行列ベクトル積）に特化

Samsung LPDDR5X-PIM (2026年2月発表):
  - モバイル向けLPDDR5Xにin-memory compute搭載
  - エッジAI推論のエネルギー効率を大幅改善（業界分析では「数倍〜」との評価）
  - スマートフォン/エッジデバイス向け

Samsung/SK Hynix HBM4計画:
  - ロジックダイをHBMスタックに統合
  - メモリスタック自体がコプロセッサに
  - 2026年2月から量産開始
  - NVIDIAの「Rubin」アーキテクチャ向け

PIMはLLM推論をどう変えるか

2025-2026年のArXiv論文群が、PIM × LLM推論の具体的なアーキテクチャを提案している。

HPIM: 異種PIMの統合 (arXiv:2509.12993)

HPIM (Heterogeneous PIM) アーキテクチャ:

SRAM-PIM (低レイテンシ):
  - 注意機構のスコア計算
  - 小さいが超高速
  - GPUのL2キャッシュ相当の位置

HBM-PIM (高帯域・大容量):
  - KVキャッシュの格納と処理
  - 大容量だが中速
  - メインメモリ相当の位置

両者を並列実行:
  SRAM-PIM: attention score計算 ← 低レイテンシ
  HBM-PIM: KV乗算 ← 高帯域
  → 自己回帰Decodeの直列依存を並列化

これはメモリ階層全体をPIM化する構想。キャッシュもメインメモリも、それぞれの強みを活かして演算する。

PAM: メモリ階層横断PIM (arXiv:2602.11521)

PAM (Processing Across Memory):

HBM-PIM:  ホットデータ (頻繁にアクセス)
DRAM-PIM: ウォームデータ (中程度のアクセス)
SSD-PIM:  コールドデータ (稀にアクセス)

→ データの温度に応じて処理場所を最適化
→ LLMの長コンテキスト (100K+トークン) に対応

モデル全体がHBMに載らない場合（我々RTX 4060 8GBユーザーの日常）、メモリ階層を跨いだPIMが部分オフロードの代替になる可能性がある。

PIMがGPUを殺せない3つの理由

PIMは魅力的だが、GPUを不要にはしない。

1. 訓練には使えない

LLM訓練はCompute-boundだ。大規模な行列積、勾配計算、パラメータ更新。これらはGPUの高い演算密度が必要。PIMのメモリ内演算ユニットは行列ベクトル積（GEMV）には向いているが、行列行列積（GEMM）のスループットはGPUに遠く及ばない。

# 訓練 vs 推論の演算特性
workload_characteristics = {
    "training": {
        "dominant_op": "GEMM (matrix-matrix multiply)",
        "arithmetic_intensity": "高 (100+ FLOP/byte)",
        "bottleneck": "compute",
        "pim_advantage": "なし (GEMMはGPUの独壇場)",
    },
    "inference_prefill": {
        "dominant_op": "GEMM (batched)",
        "arithmetic_intensity": "中-高",
        "bottleneck": "compute (バッチサイズ依存)",
        "pim_advantage": "限定的",
    },
    "inference_decode": {
        "dominant_op": "GEMV (matrix-vector multiply)",
        "arithmetic_intensity": "低 (1-2 FLOP/byte)",
        "bottleneck": "memory bandwidth",
        "pim_advantage": "★大きい",
    },
}

PIMの勝ち目はinference decodeだけ。訓練とprefillはGPUの圧勝。

2. プログラミングモデルの未成熟

PIMを活用するには、データ配置と計算のマッピングを明示的にプログラムする必要がある。CUDAのようなGPUプログラミングモデルはない。

GPU:
  ソフトウェアスタック成熟 (CUDA 15年の蓄積)
  フレームワーク全対応 (PyTorch, TensorFlow, llama.cpp)
  開発者エコシステム巨大

PIM:
  ベンダー固有のAPI (SK Hynix AiM SDK, Samsung PIM SDK)
  フレームワーク統合なし
  開発者コミュニティ小規模
  メモリ配置の手動最適化が必要

ハードウェアが存在しても、ソフトウェアスタックが追いつかなければ実用にならない。CUDAがGPUを計算プラットフォームにしたように、PIMにも「PIMのCUDA」が必要。現時点で存在しない。

3. コスト構造

PIMは通常のメモリより製造コストが高い。演算ユニットの追加面積、テスト工程の複雑化、歩留まり低下。

通常のHBM3E: ~$10-18/GB (2026年市場推定)
HBM-PIM:     ~$20-30/GB (推定、演算ユニット追加分)
GPU (A100):  ~$10,000 (80GB HBM2e含む)

PIMのROI成立条件:
  推論サーバーの電力コスト削減 > PIMのプレミアム
  → 大規模データセンターでは成立する可能性
  → 個人ユーザーには当面関係なし

RTX 4060 8GBユーザーにPIMは来るのか

正直に言うと、消費者向けPIMは3-5年先の話だ。

現時点で利用可能なPIM:
  - SK Hynix AiM: データセンター向け、個人購入不可
  - Samsung LPDDR5X-PIM: モバイル向け、PCには非搭載

2027-2028年に期待されるもの:
  - HBM4搭載GPUにPIM機能統合の可能性
  - NVIDIAのRubinアーキテクチャがHBM4を採用
  - ただしPIM機能のGPU統合は不明

消費者向け現実解:
  今のところ、メモリ帯域問題への対処は
  1. より高帯域なGPU (RTX 5090: GDDR7で約1.8 TB/s)
  2. MoEモデルでアクティブパラメータを削減 (帯域要求を下げる)
  3. Speculative decodingで実効帯域効率を上げる

ただし間接的な恩恵はある。データセンターでのPIM採用が進めば、クラウドAPI推論のコストが下がる。エネルギー効率の改善はトークン単価に反映される。

# PIMによる推論コスト改善の波及予測
cost_impact = {
    "datacenter_direct": {
        "timeline": "2026-2027",
        "impact": "推論サーバーのエネルギー効率の大幅な改善が期待される（推定）",
        "beneficiary": "クラウドAIプロバイダー",
    },
    "api_pricing": {
        "timeline": "2027-2028",
        "impact": "API推論コストの大幅削減",
        "beneficiary": "APIユーザー",
    },
    "consumer_gpu": {
        "timeline": "2028-2030",
        "impact": "GDDR/HBMにPIM機能搭載",
        "beneficiary": "ローカルLLMユーザー",
    },
}

PIMが変える境界線

PIMはGPUを殺さない。だがGPUの仕事の境界線を変える。

現在の境界線:
  GPU = 訓練 + 推論（全部GPU）
  メモリ = データ格納のみ

PIM後の境界線:
  GPU = 訓練 + Prefill (Compute-bound)
  PIM = Decode (Memory-bound)
  メモリ = データ格納 + Decode計算

推論のDecodeフェーズがPIMに移行すると、GPUはPrefillと訓練に特化できる。GPUの演算器が遊んでいた問題が解消される。

これは半導体産業の力学も変える。現在NVIDIAが独占的に握っている推論市場の一部が、メモリメーカー（Samsung、SK Hynix、Micron）に移る。TrendForce（2026年3月）の報道によれば、Samsung/SK Hynixは「NVIDIAに挑戦できる次世代AIメモリ」を探索中とされる。

推論市場の構造変化:
  Before: NVIDIA GPU (演算+帯域を独占)
  After:  NVIDIA GPU (演算) + Memory Maker PIM (帯域)
  → 推論の半分がメモリメーカーの領域に
  → NVIDIAの推論GPUマージンに圧力

まとめ: メモリの壁は内側から崩れ始めている

冒頭の問い「メモリの中で計算すればGPUは要らないのか」への答え:

GPUは要る。訓練とPrefillには不可欠。だがDecodeの主役はGPUからPIMに移行する可能性が高い。

PIMは推論Decodeのメモリ帯域ボトルネックを根本解決する
SK Hynix AiMは稼働中、Samsung LPDDR5X-PIM は発表済み、HBM4にはロジックダイ統合
ただし訓練には使えず、ソフトウェアスタックは未成熟、コストプレミアムがある
消費者向けは3-5年先。当面はMoE + Speculative Decodingが現実解

メモリの壁は外側（帯域増強）からではなく、内側（計算を中に入れる）から崩れ始めている。その波が個人のGPUに届くのはもう少し先だが、データセンターでは既に始まっている。

参考文献

"Challenges and Research Directions for Large Language Model Inference Hardware" (2026) arXiv:2601.05047
"HPIM: Heterogeneous Processing-In-Memory-based Accelerator for LLM Inference" (2025) arXiv:2509.12993
"PAM: Processing Across Memory Hierarchy" (2026) arXiv:2602.11521
"Memory Is All You Need: Compute-in-Memory Architectures for LLM Inference" (2024) arXiv:2406.08413
TrendForce. "Beyond HBM: Samsung, SK hynix Explore Next-Gen AI Memory" (2026-03-10)
Samsung. "LPDDR5X-PIM for AI Computing" (2026-02)

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up