LLM の推論が DRAM に詰まっている話と Cerebras × AWS がやろうとしていること

Posted at 2026-04-14

はじめに

LLM の出力速度を改善したくて、以前ストリーミングの挙動を調べていたことがあります。その過程で「そもそもなぜ LLM の推論はボトルネックが生まれやすいのか」が気になり始めました。

最近、Cerebras という会社が AWS Bedrock に統合されるというニュースを見て、そのとき積み残していた疑問とつながった感じがしたので整理します。

LLM の推論には大きく2つのフェーズがあります。

ボトルネックになりやすいのは Decode です。

Decode は逐次処理なのでバッチサイズが本質的に小さく、GPU の演算コアがフル稼働しません。むしろ律速しているのは、ウェイト（パラメータ）を毎回メモリから読み込む速度です。

LLM のウェイトは DRAM（外部メモリ）に置かれていて、トークンを1個生成するたびにそれを計算コアに転送し直す必要があります。Llama 3.1 70B を 1,000 トークン/秒で動かすには 140TB/s のメモリ帯域幅が必要という試算があります。実現不可能な数字です。

この「演算は余っているのにメモリの読み書きが間に合わない」という状態をメモリバウンドと言います。

ここで整理しておくと、LLM のメモリ問題には2種類あります。

問題	意味	例え	対処法
容量不足	モデルが DRAM に入らない	タンクが小さい	複数GPU・量子化で圧縮
帯域不足	入っているのに転送が遅い	パイプが細い	→ Cerebras が解く問題

Llama 3.1 70B は fp16 で約140GB あるので、H100（80GB）1枚には確かに入りません。これは容量の問題で、量子化（int8 で約70GB）や複数GPU で対応します。

Cerebras が解こうとしているのは別の話です。たとえば 7B モデル（fp16 で約14GB）は H100 に余裕で入ります。それでも Decode が遅いのはなぜか——タンクには入っているが、パイプが細いからです。

トークンを1個生成するたびに、ウェイト全体を DRAM から演算コアへ読み込み直す必要があります。7B モデルでも毎回 14GB の転送が発生し、H100 の帯域（3TB/s）が上限になります。容量は余っているのに、パイプの太さが律速しているわけです。

Cerebras は「ウェーハスケール統合」と呼ばれる設計思想で作られたチップ（WSE-3、製品名 CS-3）を開発しています。

通常のチップが 500〜800mm² 程度のダイサイズなのに対して、CS-3 は 46,225mm² ——ウェーハ1枚をそのままチップとして使います。

この設計の核心は SRAM をオンチップに大量に積むことです。

DRAM は容量は大きいですが、計算コアから物理的に離れていてアクセスに時間がかかります。SRAM はコアのすぐ隣に置けて高速ですが、製造コストが高く小さいチップには少ししか載りません。ウェーハ全体をチップにすれば、SRAM を大量に積むことができます。

GPU との構造的な違いを図にするとこうなります。

CS-3 のスペックを H100 と並べると：

メモリ帯域幅の差が7,000倍。Decode フェーズで詰まっていた「ウェイトの転送速度」という問題が、設計レベルで解消されます。

2026年3月13日、AWS は Cerebras CS-3 を AWS Bedrock に統合すると発表しました。

このアーキテクチャが面白いのは、Prefill と Decode を別のハードウェアに分けている点です。

それぞれの強みに特化させる構成で、結果として「5倍以上のトークン生成スループット」と発表されています。Bedrock での提供開始は「数ヶ月以内」とのことで、Llama 系モデルと Amazon Nova モデルが対象予定です。

LLM の高速推論文脈でよく出てくるのが Groq です。Groq は「LPU（Language Processing Unit）」という独自チップで、実行グラフをコンパイル時に決定することで高速化します。

Groq は「応答の初速」に強く、Cerebras は「大量のトークンを出し続けること」に強い。

Groq API を触ったことがあるのですが、確かに初速は速かったです。ただ長い出力を続けるときの持続的なスループットは、Cerebras の設計思想とは少し軸が違う。どちらが優れているというより、用途の違いです。

過去10年でチップの演算性能は80倍成長しましたが、メモリ帯域幅の成長は17倍にとどまっています。モデルが大きくなるほど「演算は余っているがメモリが追いつかない」状態が強くなる傾向があり、Cerebras の SRAM 設計はこのギャップへの回答の一つです。

AWS Bedrock 統合で何が変わるかというと、高速推論がインフラを自前で持たずに API 一本で使えるようになります。「Groq の代替」として使えるのか、「全然別の用途に向いているのか」は、実際に提供が始まってから触ってみないとわかりません。

まあ、速くなるのは歓迎です。