0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

メモリの中で計算すればGPUは要らないのか

0
Posted at

メモリの中で計算すればGPUは要らないのか

LLM推論のボトルネックはGPUの演算能力ではない。メモリ帯域だ。

2026年1月のArXiv論文(arXiv:2601.05047)はこう断言している。LLM推論における主要な課題はメモリとインターコネクトであり、計算ではない。GPUの演算器は半分以上の時間、データの到着を待って遊んでいる。

ならば発想を変える。データが格納されている場所で計算すれば、データを移動する必要がなくなる。これがProcessing-in-Memory(PIM)の基本思想だ。SK HynixのAiMは実製品として稼働中。Samsungは2026年2月にLPDDR5X-PIMを発表した。HBM4はロジックダイを統合し、メモリスタックそのものがコプロセッサになる。

GPUの時代は終わるのか。結論から言えばNOだ。だがPIMは確実にLLM推論のアーキテクチャを変える。どこまで変わり、どこで止まるのかを、論文と製品データから読み解く。


メモリの壁: なぜGPUは遊んでいるのか

LLM推論の2つのフェーズと、それぞれのボトルネック:

Prefillフェーズ (プロンプト処理):
  大量のトークンを一括で処理
  行列積計算 → 計算律速 (Compute-bound)
  GPUの演算器がフル稼働

Decodeフェーズ (トークン生成):
  1トークンずつ自己回帰的に生成
  KVキャッシュの読み出し → メモリ帯域律速 (Memory-bound)
  GPUの演算器はデータ待ちで遊ぶ

問題はDecodeフェーズ。LLMの推論時間の大半はDecodeに費やされる。そしてDecodeはメモリ帯域が律速。

# RTX 4060 8GB でのメモリ帯域ボトルネック
rtx_4060_specs = {
    "compute": "15.11 TFLOPS (FP16)",
    "memory_bandwidth": "272 GB/s",
    "arithmetic_intensity_required": "15110 / 272 = 55.6 FLOP/byte",
}

# LLM Decode の実際の演算強度
llm_decode = {
    "typical_arithmetic_intensity": "1-2 FLOP/byte",
    "bottleneck": "memory bandwidth (272 GB/sの壁)",
    "gpu_utilization": "< 5% of compute capacity during decode",
}

# GPUの演算能力の95%以上がDecodeフェーズで遊んでいる

A100 80GBでも同じ構造。HBM2eの帯域は2 TB/s。演算能力312 TFLOPS。演算強度は156 FLOP/byte要求に対し、Decodeは1-2 FLOP/byte。帯域が50-100倍足りない。


PIMの原理: データを動かすな、計算を動かせ

従来アーキテクチャ:

DRAM/HBM → バス → GPU演算器 → バス → DRAM/HBM
  データが往復する。バスの帯域が律速。

PIMアーキテクチャ:

DRAM/HBM内部の演算ユニット → 結果だけ出力
  データは動かない。演算が動く。
  内部帯域はバス帯域より桁違いに高い。

HBMの内部帯域(バンク合計)は外部帯域の数十倍ある。データをHBMの外に出さずに中で計算すれば、帯域の壁は消える。

実製品の状況

SK Hynix AiM (Accelerator in Memory):
  - GDDR6ベースの商用PIMプロセッサ
  - メモリバンクごとに演算ユニット搭載
  - 実環境で稼働実績あり(AiMXカードとして製品化)
  - GEMV(行列ベクトル積)に特化

Samsung LPDDR5X-PIM (2026年2月発表):
  - モバイル向けLPDDR5Xにin-memory compute搭載
  - エッジAI推論のエネルギー効率を大幅改善(業界分析では「数倍〜」との評価)
  - スマートフォン/エッジデバイス向け

Samsung/SK Hynix HBM4計画:
  - ロジックダイをHBMスタックに統合
  - メモリスタック自体がコプロセッサに
  - 2026年2月から量産開始
  - NVIDIAの「Rubin」アーキテクチャ向け

PIMはLLM推論をどう変えるか

2025-2026年のArXiv論文群が、PIM × LLM推論の具体的なアーキテクチャを提案している。

HPIM: 異種PIMの統合 (arXiv:2509.12993)

HPIM (Heterogeneous PIM) アーキテクチャ:

SRAM-PIM (低レイテンシ):
  - 注意機構のスコア計算
  - 小さいが超高速
  - GPUのL2キャッシュ相当の位置

HBM-PIM (高帯域・大容量):
  - KVキャッシュの格納と処理
  - 大容量だが中速
  - メインメモリ相当の位置

両者を並列実行:
  SRAM-PIM: attention score計算 ← 低レイテンシ
  HBM-PIM: KV乗算 ← 高帯域
  → 自己回帰Decodeの直列依存を並列化

これはメモリ階層全体をPIM化する構想。キャッシュもメインメモリも、それぞれの強みを活かして演算する。

PAM: メモリ階層横断PIM (arXiv:2602.11521)

PAM (Processing Across Memory):

HBM-PIM:  ホットデータ (頻繁にアクセス)
DRAM-PIM: ウォームデータ (中程度のアクセス)
SSD-PIM:  コールドデータ (稀にアクセス)

→ データの温度に応じて処理場所を最適化
→ LLMの長コンテキスト (100K+トークン) に対応

モデル全体がHBMに載らない場合(我々RTX 4060 8GBユーザーの日常)、メモリ階層を跨いだPIMが部分オフロードの代替になる可能性がある。


PIMがGPUを殺せない3つの理由

PIMは魅力的だが、GPUを不要にはしない。

1. 訓練には使えない

LLM訓練はCompute-boundだ。大規模な行列積、勾配計算、パラメータ更新。これらはGPUの高い演算密度が必要。PIMのメモリ内演算ユニットは行列ベクトル積(GEMV)には向いているが、行列行列積(GEMM)のスループットはGPUに遠く及ばない。

# 訓練 vs 推論の演算特性
workload_characteristics = {
    "training": {
        "dominant_op": "GEMM (matrix-matrix multiply)",
        "arithmetic_intensity": "高 (100+ FLOP/byte)",
        "bottleneck": "compute",
        "pim_advantage": "なし (GEMMはGPUの独壇場)",
    },
    "inference_prefill": {
        "dominant_op": "GEMM (batched)",
        "arithmetic_intensity": "中-高",
        "bottleneck": "compute (バッチサイズ依存)",
        "pim_advantage": "限定的",
    },
    "inference_decode": {
        "dominant_op": "GEMV (matrix-vector multiply)",
        "arithmetic_intensity": "低 (1-2 FLOP/byte)",
        "bottleneck": "memory bandwidth",
        "pim_advantage": "★大きい",
    },
}

PIMの勝ち目はinference decodeだけ。訓練とprefillはGPUの圧勝。

2. プログラミングモデルの未成熟

PIMを活用するには、データ配置と計算のマッピングを明示的にプログラムする必要がある。CUDAのようなGPUプログラミングモデルはない。

GPU:
  ソフトウェアスタック成熟 (CUDA 15年の蓄積)
  フレームワーク全対応 (PyTorch, TensorFlow, llama.cpp)
  開発者エコシステム巨大

PIM:
  ベンダー固有のAPI (SK Hynix AiM SDK, Samsung PIM SDK)
  フレームワーク統合なし
  開発者コミュニティ小規模
  メモリ配置の手動最適化が必要

ハードウェアが存在しても、ソフトウェアスタックが追いつかなければ実用にならない。CUDAがGPUを計算プラットフォームにしたように、PIMにも「PIMのCUDA」が必要。現時点で存在しない。

3. コスト構造

PIMは通常のメモリより製造コストが高い。演算ユニットの追加面積、テスト工程の複雑化、歩留まり低下。

通常のHBM3E: ~$10-18/GB (2026年市場推定)
HBM-PIM:     ~$20-30/GB (推定、演算ユニット追加分)
GPU (A100):  ~$10,000 (80GB HBM2e含む)

PIMのROI成立条件:
  推論サーバーの電力コスト削減 > PIMのプレミアム
  → 大規模データセンターでは成立する可能性
  → 個人ユーザーには当面関係なし

RTX 4060 8GBユーザーにPIMは来るのか

正直に言うと、消費者向けPIMは3-5年先の話だ。

現時点で利用可能なPIM:
  - SK Hynix AiM: データセンター向け、個人購入不可
  - Samsung LPDDR5X-PIM: モバイル向け、PCには非搭載

2027-2028年に期待されるもの:
  - HBM4搭載GPUにPIM機能統合の可能性
  - NVIDIAのRubinアーキテクチャがHBM4を採用
  - ただしPIM機能のGPU統合は不明

消費者向け現実解:
  今のところ、メモリ帯域問題への対処は
  1. より高帯域なGPU (RTX 5090: GDDR7で約1.8 TB/s)
  2. MoEモデルでアクティブパラメータを削減 (帯域要求を下げる)
  3. Speculative decodingで実効帯域効率を上げる

ただし間接的な恩恵はある。データセンターでのPIM採用が進めば、クラウドAPI推論のコストが下がる。エネルギー効率の改善はトークン単価に反映される。

# PIMによる推論コスト改善の波及予測
cost_impact = {
    "datacenter_direct": {
        "timeline": "2026-2027",
        "impact": "推論サーバーのエネルギー効率の大幅な改善が期待される(推定)",
        "beneficiary": "クラウドAIプロバイダー",
    },
    "api_pricing": {
        "timeline": "2027-2028",
        "impact": "API推論コストの大幅削減",
        "beneficiary": "APIユーザー",
    },
    "consumer_gpu": {
        "timeline": "2028-2030",
        "impact": "GDDR/HBMにPIM機能搭載",
        "beneficiary": "ローカルLLMユーザー",
    },
}

PIMが変える境界線

PIMはGPUを殺さない。だがGPUの仕事の境界線を変える。

現在の境界線:
  GPU = 訓練 + 推論(全部GPU)
  メモリ = データ格納のみ

PIM後の境界線:
  GPU = 訓練 + Prefill (Compute-bound)
  PIM = Decode (Memory-bound)
  メモリ = データ格納 + Decode計算

推論のDecodeフェーズがPIMに移行すると、GPUはPrefillと訓練に特化できる。GPUの演算器が遊んでいた問題が解消される。

これは半導体産業の力学も変える。現在NVIDIAが独占的に握っている推論市場の一部が、メモリメーカー(Samsung、SK Hynix、Micron)に移る。TrendForce(2026年3月)の報道によれば、Samsung/SK Hynixは「NVIDIAに挑戦できる次世代AIメモリ」を探索中とされる。

推論市場の構造変化:
  Before: NVIDIA GPU (演算+帯域を独占)
  After:  NVIDIA GPU (演算) + Memory Maker PIM (帯域)
  → 推論の半分がメモリメーカーの領域に
  → NVIDIAの推論GPUマージンに圧力

まとめ: メモリの壁は内側から崩れ始めている

冒頭の問い「メモリの中で計算すればGPUは要らないのか」への答え:

GPUは要る。訓練とPrefillには不可欠。だがDecodeの主役はGPUからPIMに移行する可能性が高い。

  • PIMは推論Decodeのメモリ帯域ボトルネックを根本解決する
  • SK Hynix AiMは稼働中、Samsung LPDDR5X-PIM は発表済み、HBM4にはロジックダイ統合
  • ただし訓練には使えず、ソフトウェアスタックは未成熟、コストプレミアムがある
  • 消費者向けは3-5年先。当面はMoE + Speculative Decodingが現実解

メモリの壁は外側(帯域増強)からではなく、内側(計算を中に入れる)から崩れ始めている。その波が個人のGPUに届くのはもう少し先だが、データセンターでは既に始まっている。


参考文献

  1. "Challenges and Research Directions for Large Language Model Inference Hardware" (2026) arXiv:2601.05047
  2. "HPIM: Heterogeneous Processing-In-Memory-based Accelerator for LLM Inference" (2025) arXiv:2509.12993
  3. "PAM: Processing Across Memory Hierarchy" (2026) arXiv:2602.11521
  4. "Memory Is All You Need: Compute-in-Memory Architectures for LLM Inference" (2024) arXiv:2406.08413
  5. TrendForce. "Beyond HBM: Samsung, SK hynix Explore Next-Gen AI Memory" (2026-03-10)
  6. Samsung. "LPDDR5X-PIM for AI Computing" (2026-02)
0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?