はじめに
LLM の出力速度を改善したくて、以前ストリーミングの挙動を調べていたことがあります。その過程で「そもそもなぜ LLM の推論はボトルネックが生まれやすいのか」が気になり始めました。
最近、Cerebras という会社が AWS Bedrock に統合されるというニュースを見て、そのとき積み残していた疑問とつながった感じがしたので整理します。
LLM の推論がどこで詰まるか
LLM の推論には大きく2つのフェーズがあります。
- Prefill: 入力プロンプト全体を並列処理する段階
- Decode: トークンを1つずつ逐次生成する段階
ボトルネックになりやすいのは Decode です。
Decode は逐次処理なのでバッチサイズが本質的に小さく、GPU の演算コアがフル稼働しません。むしろ律速しているのは、ウェイト(パラメータ)を毎回メモリから読み込む速度です。
LLM のウェイトは DRAM(外部メモリ)に置かれていて、トークンを1個生成するたびにそれを計算コアに転送し直す必要があります。Llama 3.1 70B を 1,000 トークン/秒で動かすには 140TB/s のメモリ帯域幅が必要という試算があります。実現不可能な数字です。
この「演算は余っているのにメモリの読み書きが間に合わない」という状態をメモリバウンドと言います。
容量と帯域は別の問題
ここで整理しておくと、LLM のメモリ問題には2種類あります。
| 問題 | 意味 | 例え | 対処法 |
|---|---|---|---|
| 容量不足 | モデルが DRAM に入らない | タンクが小さい | 複数GPU・量子化で圧縮 |
| 帯域不足 | 入っているのに転送が遅い | パイプが細い | → Cerebras が解く問題 |
Llama 3.1 70B は fp16 で約140GB あるので、H100(80GB)1枚には確かに入りません。これは容量の問題で、量子化(int8 で約70GB)や複数GPU で対応します。
Cerebras が解こうとしているのは別の話です。たとえば 7B モデル(fp16 で約14GB)は H100 に余裕で入ります。それでも Decode が遅いのはなぜか——タンクには入っているが、パイプが細いからです。
トークンを1個生成するたびに、ウェイト全体を DRAM から演算コアへ読み込み直す必要があります。7B モデルでも毎回 14GB の転送が発生し、H100 の帯域(3TB/s)が上限になります。容量は余っているのに、パイプの太さが律速しているわけです。
Cerebras がやっていること
Cerebras は「ウェーハスケール統合」と呼ばれる設計思想で作られたチップ(WSE-3、製品名 CS-3)を開発しています。
通常のチップが 500〜800mm² 程度のダイサイズなのに対して、CS-3 は 46,225mm² ——ウェーハ1枚をそのままチップとして使います。
この設計の核心は SRAM をオンチップに大量に積むことです。
DRAM は容量は大きいですが、計算コアから物理的に離れていてアクセスに時間がかかります。SRAM はコアのすぐ隣に置けて高速ですが、製造コストが高く小さいチップには少ししか載りません。ウェーハ全体をチップにすれば、SRAM を大量に積むことができます。
GPU との構造的な違いを図にするとこうなります。
CS-3 のスペックを H100 と並べると:
| 項目 | CS-3 | H100 |
|---|---|---|
| オンチップ SRAM | 44GB | 50MB |
| メモリ帯域幅 | 21PB/s | 3TB/s |
| 演算コア数 | 900,000 | 16,896 |
メモリ帯域幅の差が7,000倍。Decode フェーズで詰まっていた「ウェイトの転送速度」という問題が、設計レベルで解消されます。
AWS との組み合わせ——Prefill と Decode の分業
2026年3月13日、AWS は Cerebras CS-3 を AWS Bedrock に統合すると発表しました。
このアーキテクチャが面白いのは、Prefill と Decode を別のハードウェアに分けている点です。
- Prefill(入力処理): AWS Trainium で担当(並列計算が得意)
- Decode(トークン生成): Cerebras CS-3 が担当(メモリ帯域幅が圧倒的)
それぞれの強みに特化させる構成で、結果として「5倍以上のトークン生成スループット」と発表されています。Bedrock での提供開始は「数ヶ月以内」とのことで、Llama 系モデルと Amazon Nova モデルが対象予定です。
Groq と何が違うのか
LLM の高速推論文脈でよく出てくるのが Groq です。Groq は「LPU(Language Processing Unit)」という独自チップで、実行グラフをコンパイル時に決定することで高速化します。
| 項目 | Groq | Cerebras CS-3 |
|---|---|---|
| Llama 3.1 70B スループット | 約 1,200 t/s | 2,100 t/s |
| TTFT(初回トークンまでの時間) | < 100ms | 80〜150ms |
| モデル訓練への対応 | × | ○ |
| 得意な用途 | 低レイテンシ | 高スループット |
Groq は「応答の初速」に強く、Cerebras は「大量のトークンを出し続けること」に強い。
Groq API を触ったことがあるのですが、確かに初速は速かったです。ただ長い出力を続けるときの持続的なスループットは、Cerebras の設計思想とは少し軸が違う。どちらが優れているというより、用途の違いです。
なぜ今これが重要か
過去10年でチップの演算性能は80倍成長しましたが、メモリ帯域幅の成長は17倍にとどまっています。モデルが大きくなるほど「演算は余っているがメモリが追いつかない」状態が強くなる傾向があり、Cerebras の SRAM 設計はこのギャップへの回答の一つです。
AWS Bedrock 統合で何が変わるかというと、高速推論がインフラを自前で持たずに API 一本で使えるようになります。「Groq の代替」として使えるのか、「全然別の用途に向いているのか」は、実際に提供が始まってから触ってみないとわかりません。
まあ、速くなるのは歓迎です。
参考
- AWS and Cerebras collaboration aims to set a new standard for AI inference speed and performance in the cloud
- Cerebras is coming to AWS
- Cerebras CS-3 vs Groq LPU
- Introducing Cerebras Inference: AI at Instant Speed
- Understanding Wafer-Scale Processors: Cerebras CS-3
- AWS will bring Cerebras' wafer-size WSE-3 chip to cloud platform - SiliconANGLE