LLM推論を2倍速にするEAGLE 3.1 — attention driftを解いた最新形

Posted at 2026-05-31

vLLM公式が公表したベンチマークで、Kimi K2.6のスループットは2.03倍まで伸びた(同時リクエスト1件、対EAGLE-3、2026-05-26 vLLM公式値)。タイトル「2倍速」はこの数字だ。本記事の中核は5/26にEAGLE+vLLM+TorchSpec(PyTorch側のspeculative decoding訓練ライブラリ)が共著で公開したEAGLE 3.1。先読みを深めるほどdraft(下書き役)が自身の予測に自信過剰になる「attention drift」を、target本体(本物の推論役)に触らず塞いだ最新形だ。

draft → verifyという『下書き』式デコード

Transformer系LLMは1トークンずつ自己回帰(直前の出力を入力に戻して次を予測する方式)で出す。speculative decoding(投機的デコーディング)はここに小さく速いdraftモデルを挟み、3〜8トークン先まで先読みで提案、targetが1回の計算でまとめて並列検証する。一致した接頭辞だけ採用、出力分布はtarget単体と数学的に等価。効きはacceptance length(連続採用される平均トークン数=長さ)で決まり、運用判断にはacceptance rate(採用される割合=比率、目安0.7以上で1.3〜2倍の純加速)も並行で見る。draftはtargetのhidden state(中間層の表現)を覗き見る軽量予測器で、EAGLE-3が事実上の標準だ。

先読みするほどdraftが自信過剰になるattention drift

EAGLE-3のdraft headは検証で採用されたトークンを次の予測に取り込む。本来「sink tokens」(文章の最初の数トークン。Transformerはここに強くattentionを向ける性質がある)へ振るべきattentionが、自分で生成した直近トークン側へ寄っていく。targetが選ぶトークンとdraftの予測が食い違い、acceptance rateが落ちる。先読みが深いほどdraftが自信過剰になり一致率が落ちる──「単発では速いが本番では効きにくい」と言われてきた一因だ。

FC正規化:層を跨ぐスケールずれを入口で打ち消す

EAGLE 3.1の解は2点、どちらもtargetに触らずdraft head側だけで塞ぐ。1つ目がFC正規化だ。draftは層を跨いでhidden stateを取り込むため、層が深まるほどスケール(各次元の数値の大きさ)が累積で歪み、attention分布もズレてsink tokensに向く重みが薄れる。FC正規化は取り込み前に全結合層で正規化を挟み、層を跨ぐスケールずれを毎回入口で打ち消す。数値が層ごとに膨らんで最初の数トークンへの注目度が薄れる流れを、入口で大きさを毎回揃え直す措置だと考えるとイメージしやすい。

Post-norm hidden state feedback:整えた出口を次stepに返す

2つ目はfeedback側の工夫だ。EAGLE-3は採用済みhidden stateを次stepへ戻すとき、正規化前の生の表現を渡していた。EAGLE 3.1は正規化後の表現を渡す。FC正規化が「入口で整える」のに対し、こちらは「出口で整えた状態を次に流す」役割。入口だけ整えても出口で崩れた表現を次stepに返すと累積歪みは戻ってくるため、入口・出口の両端で形を保つ二段構えだ。vLLM公式値でacceptance lengthはEAGLE-3比で約2倍に伸び、これが次節のスループット改善を支える。

Kimi K2.6で2.03倍速、並列でも落ちにくい

vLLM公式がKimi K2.6上で公表したベンチマーク。Cは同時リクエスト数(concurrency、バッチサイズと同義に扱う)。リードの「2.03倍」はこのC=1時の数字で、後段のShopify「+38%/+6%」とは構成も世代も異なる別系列の数字だ。

並列度C	スループット改善(対EAGLE-3)
C=1	2.03×
C=4	1.71×
C=16	1.66×

(vLLM公式報告値の通り3行のみ掲載、C=8は元データに含まれない)

並列度16でも1.6倍以上が保たれる点が肝。従来は「単発で爆速・並列で旨味消失」だったが、acceptance lengthが伸びた分、並列でも倍率がだれにくい。

vLLM v0.22.0でconfig 1行で動かす

EAGLE 3.1はvLLM v0.22.0で正式統合。targetモデルは無変更、起動コマンドにJSONフラグを1つ足すだけだ。

# vLLM v0.22.0 で EAGLE 3.1 を有効化して Kimi K2.6 をサーブする
# --speculative-config はJSONを受け取り、draft model と decoding 法を1行で指定する
vllm serve moonshotai/Kimi-K2.6-Instruct \
  --tensor-parallel-size 8 \
  --speculative-config '{
    "model": "lightseekorg/kimi-k2.6-eagle3.1-mla",
    "method": "eagle3",
    "num_speculative_tokens": 3
  }'

--tensor-parallel-sizeはGPU基数(ここでは8基)。modelはdraftモデルで、末尾のmlaはMulti-head Latent Attention(KVキャッシュ圧縮版。Kimi K2.6本体が採用)対応のdraft。methodは方式宣言でEAGLE-3・3.1ともeagle3(後方互換)。num_speculative_tokensは1回の先読みの深さで3〜8で調整。

自社で有効化判断するなら、vLLM起動時に--enable-metricsを渡せばPrometheusエンドポイントが開き、acceptance rateとacceptance lengthがメトリクスとして取れる。0.7を下回るドメインならdraftモデルの再学習か無効化、が運用判断の足場になる。

バッチが大きい本番では旨味が消えうる

落とし穴は2つ。1つはバッチ実装の正しさ。論文「Batch Speculative Decoding Done Right」は、既存実装の多くがバッチサイズ2以上で出力等価性を保てないと指摘した(提案手法EXSPECはバッチ8でも95%等価性を保ち3×)。もう1つがacceptance rateの低さ。先述のメトリクスで測ってから有効化、が安全策だ。

Shopifyの+38%はEAGLE-3世代の数字

ここからは構成も世代も異なる、ShopifyのEAGLE-3導入で公開された数字を見る。Shopifyの構成はgpt-oss-120B(OpenAIが公開した120Bパラメータの基盤モデル) + vLLM + NVIDIA訓練のEAGLE-3 draft head(3.1世代ではない) + 自社FlashInfer kernel(attention処理を高速化するCUDAカーネル)。全体+38%/−13%のうちspeculative decoding単体は100〜200同時セッション帯で+6%(33K→35K TPS、tokens per second)。原文「validated and queued for production deployment」は本番投入の手前を書き分けている。EAGLE 3.1ならEAGLE-3 draft headを置き換えるだけで、acceptance length 2倍分の上積みが乗る。

その手前で、Ant Group・Meituan・Nex-AGI(中国)とEigenAI(米)もLMSYS(オープンソースLLM推論基盤の研究組織)主導のSpecBundle Phase 1でEAGLE-3系draftを共同公開済み。中国・米国・カナダの大手が同じ手法へ動いたのは、speculative decodingが「研究の優位性」から「インフラの選択肢」へ移った印だ。

どのモデルかから、どこで・どう走らせるかへ

LLMの議論の重心は「どのモデルか」から「どこで・どう走らせるか」に移り始めた。EAGLE 3.1の新しさは、targetに触らずdraft head側の正規化とfeedbackだけでattention driftを畳んだ点。だからvLLM・SGLang(LMSYS発のOSS推論エンジン)・TensorRT-LLM(NVIDIAのGPU向け推論ランタイム)に後方互換で滑り込めた。推論コストとレイテンシに余地があるなら、Prometheus経由でacceptance rateを測り、自社の使用モデルに対応するdraft modelの在庫を確認する価値がある。

参考文献

vLLM Blog - "EAGLE 3.1: Speculative Decoding for the Era of 1T Parameter Models"(2026-05-26) — https://vllm.ai/blog/2026-05-26-eagle-3-1
SafeAILab - EAGLE 公式リポジトリ(GitHub) — https://github.com/SafeAILab/EAGLE
arxiv - "EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test" — https://arxiv.org/html/2503.01840v1
Artiverse - "How EAGLE 3.1 Solves Attention Drift to Speed Up LLMs" — https://www.artiverse.ca/how-eagle-31-solves-attention-drift-to-speed-up-llms/
MarkTechPost - "Meet EAGLE 3.1: The Speculative Decoding Algorithm That Fixes Attention Drift in LLM Inference"(2026-05-27) — https://www.marktechpost.com/2026/05/27/meet-eagle-3-1-the-speculative-decoding-algorithm-that-fixes-attention-drift-in-llm-inference/
HuggingFace - EAGLE プロジェクト公式ハンドル(draft model 一覧) — https://huggingface.co/yuhuili
LMSYS Blog - "SpecBundle Phase 1: Open Speculative Decoding Models for the Community"(2025-12-23) — https://www.lmsys.org/blog/2025-12-23-spec-bundle-phase-1/
HuggingFace - SGLang-EAGLE3-Qwen3-30B-A3B-Instruct-2507-SpecForge-Nex(Nex-AGI 公開モデル) — https://huggingface.co/lmsys/SGLang-EAGLE3-Qwen3-30B-A3B-Instruct-2507-SpecForge-Nex
HuggingFace - SGLang-EAGLE3-Qwen3-Coder-480B-A35B-Instruct-SpecForge-EigenAI(EigenAI 公開モデル) — https://huggingface.co/lmsys/SGLang-EAGLE3-Qwen3-Coder-480B-A35B-Instruct-SpecForge-EigenAI
Shopify Engineering - "SimGym: How Shopify Tests AI at Production Scale"(2026) — https://shopify.engineering/simgym
arxiv - "Batch Speculative Decoding Done Right" — https://arxiv.org/html/2510.22876v3
SyncSoft - "Speculative Decoding in 2026: EAGLE-3, Medusa, DeepSeek MTP" — https://www.syncsoft.ai/en/blog/speculative-decoding-eagle3-medusa-deepseek-mtp-chinese-chuhai-2026
Premai Blog - "Speculative Decoding: 2-3x Faster LLM Inference in 2026" — https://blog.premai.io/speculative-decoding-2-3x-faster-llm-inference-2026/
a16z - "LLMflation: LLM Inference Cost Over Time" — https://a16z.com/llmflation-llm-inference-cost/
Gartner - "Gartner Predicts That by 2030, Performing Inference on an LLM With 1 Trillion Parameters Will Cost GenAI Providers Over 90 Percent Less Than in 2025"(2026-03-25) — https://www.gartner.com/en/newsroom/press-releases/2026-03-25-gartner-predicts-that-by-2030-performing-inference-on-an-llm-with-1-trillion-parameters-will-cost-genai-providers-over-90-percent-less-than-in-2025
TorchSpec - PyTorch native library for training speculative decoding models(公式リポジトリ) — https://github.com/torchspec-project/TorchSpec
Nex-AGI - HuggingFace 公式ハンドル(上海創智学院発の創新連盟) — https://huggingface.co/nex-agi

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up