メモリウォールは殺せなかった — ニューロモーフィック・NPU・組み込みTransformer、3本の論文が示す2026年の現実

Posted at 2026-04-19

3つの「脱出口」を検証した

GPUのメモリウォール——演算能力は余っているのにメモリ帯域が足りない——は、ローカルLLMを動かしたことがある人なら体感で知っているはずだ。RTX 4060の8GBでは、モデルサイズとコンテキスト長の両方がメモリに縛られる。

ニューロモーフィックチップ、Edge NPU、Processing-in-Memory。これらは「フォン・ノイマンボトルネックからの脱出」を掲げるアーキテクチャだ。メモリウォールはGPU特有の問題であり、アーキテクチャを変えれば解決する——少なくとも、そう約束されてきた。

2026年4月、この約束を検証する3本の論文が出た。結論を先に言うと、壁は消えていなかった。

検証①: ニューロモーフィックの「新しい壁」

Yousefzadehらの "Memory Wall is not gone" (arXiv:2604.08774) は、タイトルからして身も蓋もない。

ニューロモーフィックチップの設計思想は「分散メモリ」だ。各ニューロンコアにローカルSRAMを配置し、シナプス重みをコアの隣に置く。演算器とメモリの距離がゼロに近い——GPUのメモリウォール（DRAM⇔演算器の帯域ギャップ）を構造的に回避するはずだった。

論文が指摘するのは、この回避策の代償だ。

「オンチップメモリシステム（SRAMおよびSTT-MRAMなど）が、エリアとエネルギーの主要消費者となり、新たなメモリウォールを形成している」

分散型アーキテクチャでは、ニューロン数×シナプス数分のSRAMが必要になる。計算をメモリに近づけた結果、チップ面積の大部分がメモリで埋まった。SRAMは常時通電が必要なため、スパイクがない静止時でもリーク電流でエネルギーを消費し続ける。

不揮発性のSTT-MRAM（スピントルク磁気RAM）への置換も検討されているが、書き込みエネルギーが高く耐久性に制限がある。メモリ技術を変えても、「メモリの面積とエネルギーがボトルネック」という構造は変わらない。

GPUでは帯域がボトルネックだった。ニューロモーフィックでは面積とリーク電流がボトルネックになった。壁の形が変わっただけだ。

検証②: Edge NPUでもKVキャッシュが支配する

SHIELDの研究 (arXiv:2604.07396) は、Edge NPU上でのLLM推論を対象にしている。論文の冒頭が問題を端的に表現する。「Edge NPU上のLLM推論は、限られたオンチップメモリ容量に根本的に制約されている」。

Edge NPUは推論に特化してメモリ効率を最大化する設計だ。しかしLLM推論にはKVキャッシュ——Attention計算で過去のKey/Valueを保持するメモリ領域——がある。これがコンテキスト長に比例して膨張し、メモリを圧迫する。

SHIELDが注目したのは、KVキャッシュを保持するeDRAM（embedded DRAM）のリフレッシュエネルギーだ。DRAMはコンデンサに電荷を蓄えてデータを保持するため、定期的なリフレッシュ（再充電）が必要になる。

BF16 (bfloat16) のビットフィールド:
  符号 (1bit) + 指数 (8bit) = 数値の大きさを決定
  仮数 (7bit) = 精度を決定

SHIELDのアプローチ:
  KVキャッシュ (persistent): 仮数のリフレッシュを緩和
  Query/Attention Output (transient): 仮数のリフレッシュを省略
  符号+指数: 常にフルリフレッシュ（精度に致命的）

データの「寿命」と「ビット感度」に応じてリフレッシュ戦略を分けることで、eDRAMリフレッシュエネルギーを35%削減した。精度はWikiText-2、PIQA、ARC-Easyで維持されている。

SHIELDは「解決策」であると同時に「問題の証拠」だ。NPU専用設計の論文が「メモリのリフレッシュエネルギー」を最適化対象にしている時点で、推論特化チップでもメモリがボトルネックであることを証明している。

検証③: GQAでも壁は3分の1にしか縮まない

TRAPTI (arXiv:2604.06955, IJCNN 2026) は、組み込みTransformer推論のオンチップメモリ占有を時系列で解析した研究だ。

GPT-2 XL（MHA: Multi-Head Attention）とDeepSeek-R1-Distill-Qwen-1.5B（GQA: Grouped-Query Attention）を同一アクセラレータ構成で比較した結果、GQAを使うDeepSeekのピークオンチップメモリ使用量は2.72倍少なかった。

GQAはKeyとValueのヘッド数を減らすことでKVキャッシュのサイズを圧縮する技術だ。2.72倍の削減は確かに大きい。しかしこの数字は裏を返せば、「GQAという最新の圧縮技術を使ってもなお、KVキャッシュがオンチップメモリの最大消費者である」ということを意味する。

論文は明確に述べている。「性能と効率は、KVキャッシュによってますます支配されている」。

GQA、MQA（Multi-Query Attention）、量子化KVキャッシュ——帯域ギャップを縮めるための技術は進化している。しかしこれらはいずれも「壁を薄くする」技術であって、「壁を消す」技術ではない。コンテキスト長がKVキャッシュを通じてメモリを支配する構造は、アテンション機構を使う限り変わらない。

壁の形態マップ: アーキテクチャを変えても壁は消えない

3本の論文を既存のアーキテクチャと合わせて整理すると、メモリボトルネックの全体像が見えてくる。

アーキテクチャ	壁の形態	何がボトルネックか	2026年の代表的対策
GPU	メモリ帯域	DRAM⇔演算器のデータ転送	HBM, GDDR7, キャッシュ階層
ニューロモーフィック	メモリ面積・リーク	SRAMがチップ面積とエネルギーを支配	STT-MRAM置換（課題あり）
Edge NPU	メモリリフレッシュ	eDRAMのKVキャッシュ保持コスト	SHIELD: ライフサイクル別リフレッシュ
組み込みTransformer	メモリ占有	KVキャッシュのオンチップ占有	GQA, パワーゲーティング
PIM	演算精度・柔軟性	アナログ演算のSNR限界	混合精度、デジタルPIM

注目すべきは「壁の形態」の列だ。帯域、面積、リフレッシュエネルギー、占有率、演算精度——全部違う。しかしどれも「メモリに起因するボトルネック」という点で共通している。

アーキテクチャを変えると壁の形が変わる。しかし壁そのものは消えない。

光コンピューティングだけが原理が違う

ここまでのアーキテクチャは全て電子によるデータ転送を前提としている。電子の移動にはエネルギーが要り、配線にはRC遅延がある。

光コンピューティングは、この前提を変える。光子には質量がなく、抵抗もなく、伝搬にほぼエネルギーを消費しない。PRISM (arXiv:2603.21576) がKVキャッシュのブロック選択をO(n)からO(1)に削減できたのは、光学的な類似度計算がコンテキスト長に依存しないためだ。

2026年のフォトニクス研究も確実に進展している:

不揮発性フォトニクス (arXiv:2604.08637): 相変化材料Sb₂Se₃をナノ構造化し、挿入損失94%抑制、1億サイクル超の書き換え耐久性を達成。「光でデータを保持する」実用性が見え始めた
フォトニックKAN (arXiv:2604.08432): 標準テレコム部品（MZI、SOA、VOA）だけで光学ニューラルネットワークを構築。4モジュールで非線形分類98.4%精度。専用チップなしで光学AIが動く

ただし光にも壁がある。非線形演算には電子-光変換が必要で、光子は静止できないため「記憶」には物質的なメカニズムが必要だ。光は「転送の壁」を原理的に回避できるが、「記憶の壁」からは逃れられない。

壁は変形するが消えない

「メモリウォール」という言葉は1995年にWulfとMcKeeが提唱したもので、元々はプロセッサとDRAMの速度差の拡大を指していた。30年が経ち、壁の定義自体が拡張されている。

2026年の現実は、帯域だけでなく、面積、リフレッシュエネルギー、占有率、演算精度といった多面的な制約がアーキテクチャごとに異なる形で現れるということだ。3本の論文が共通して示すのは、どのアーキテクチャも「メモリ由来のボトルネック」から逃れていないという事実。

壁は殺せなかった。しかし、壁の正体が見えてきた。それぞれのアーキテクチャで壁がどの形態を取るかを理解すれば、最適な対策も見えてくる。SHIELDのライフサイクル別リフレッシュ、TRAPTIの時系列メモリ解析、GQAによるKVキャッシュ圧縮——壁を消すのではなく、壁の形に合わせた道具を使うことが、2026年時点で最も現実的なアプローチだ。

参考

"Memory Wall is not gone: A Critical Outlook on Memory Architecture in Digital Neuromorphic Computing" (Yousefzadeh et al., arXiv:2604.08774)
"SHIELD: A Segmented Hierarchical Memory Architecture for Energy-Efficient LLM Inference on Edge NPUs" (Zhang & Fong, arXiv:2604.07396)
"TRAPTI: Time-Resolved Analysis for SRAM Banking and Power Gating Optimization in Embedded Transformer Inference" (Klhufek et al., arXiv:2604.06955, IJCNN 2026)
"PRISM: Breaking the O(n) Memory Wall in Long-Context LLM Inference via O(1) Photonic Block Selection" (arXiv:2603.21576)
"Increased endurance of nonvolatile photonics enabled by nanostructured phase-change materials" (arXiv:2604.08637)
"Small-scale photonic Kolmogorov-Arnold networks using standard telecom nonlinear modules" (arXiv:2604.08432)
"Hitting the Memory Wall: Implications of the Obvious" (Wulf & McKee, ACM SIGARCH, 1995)

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up