1
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

LLM推論を2倍速にするEAGLE 3.1 — attention driftを解いた最新形

1
Posted at

vLLM公式が公表したベンチマークで、Kimi K2.6のスループットは2.03倍まで伸びた(同時リクエスト1件、対EAGLE-3、2026-05-26 vLLM公式値)。タイトル「2倍速」はこの数字だ。本記事の中核は5/26にEAGLE+vLLM+TorchSpec(PyTorch側のspeculative decoding訓練ライブラリ)が共著で公開したEAGLE 3.1。先読みを深めるほどdraft(下書き役)が自身の予測に自信過剰になる「attention drift」を、target本体(本物の推論役)に触らず塞いだ最新形だ。

draft → verifyという『下書き』式デコード

Transformer系LLMは1トークンずつ自己回帰(直前の出力を入力に戻して次を予測する方式)で出す。speculative decoding(投機的デコーディング)はここに小さく速いdraftモデルを挟み、3〜8トークン先まで先読みで提案、targetが1回の計算でまとめて並列検証する。一致した接頭辞だけ採用、出力分布はtarget単体と数学的に等価。効きはacceptance length(連続採用される平均トークン数=長さ)で決まり、運用判断にはacceptance rate(採用される割合=比率、目安0.7以上で1.3〜2倍の純加速)も並行で見る。draftはtargetのhidden state(中間層の表現)を覗き見る軽量予測器で、EAGLE-3が事実上の標準だ。

先読みするほどdraftが自信過剰になるattention drift

EAGLE-3のdraft headは検証で採用されたトークンを次の予測に取り込む。本来「sink tokens」(文章の最初の数トークン。Transformerはここに強くattentionを向ける性質がある)へ振るべきattentionが、自分で生成した直近トークン側へ寄っていく。targetが選ぶトークンとdraftの予測が食い違い、acceptance rateが落ちる。先読みが深いほどdraftが自信過剰になり一致率が落ちる──「単発では速いが本番では効きにくい」と言われてきた一因だ。

FC正規化:層を跨ぐスケールずれを入口で打ち消す

EAGLE 3.1の解は2点、どちらもtargetに触らずdraft head側だけで塞ぐ。1つ目がFC正規化だ。draftは層を跨いでhidden stateを取り込むため、層が深まるほどスケール(各次元の数値の大きさ)が累積で歪み、attention分布もズレてsink tokensに向く重みが薄れる。FC正規化は取り込み前に全結合層で正規化を挟み、層を跨ぐスケールずれを毎回入口で打ち消す。数値が層ごとに膨らんで最初の数トークンへの注目度が薄れる流れを、入口で大きさを毎回揃え直す措置だと考えるとイメージしやすい。

Post-norm hidden state feedback:整えた出口を次stepに返す

2つ目はfeedback側の工夫だ。EAGLE-3は採用済みhidden stateを次stepへ戻すとき、正規化前の生の表現を渡していた。EAGLE 3.1は正規化後の表現を渡す。FC正規化が「入口で整える」のに対し、こちらは「出口で整えた状態を次に流す」役割。入口だけ整えても出口で崩れた表現を次stepに返すと累積歪みは戻ってくるため、入口・出口の両端で形を保つ二段構えだ。vLLM公式値でacceptance lengthはEAGLE-3比で約2倍に伸び、これが次節のスループット改善を支える。

Kimi K2.6で2.03倍速、並列でも落ちにくい

vLLM公式がKimi K2.6上で公表したベンチマーク。Cは同時リクエスト数(concurrency、バッチサイズと同義に扱う)。リードの「2.03倍」はこのC=1時の数字で、後段のShopify「+38%/+6%」とは構成も世代も異なる別系列の数字だ。

並列度C スループット改善(対EAGLE-3)
C=1 2.03×
C=4 1.71×
C=16 1.66×

(vLLM公式報告値の通り3行のみ掲載、C=8は元データに含まれない)

並列度16でも1.6倍以上が保たれる点が肝。従来は「単発で爆速・並列で旨味消失」だったが、acceptance lengthが伸びた分、並列でも倍率がだれにくい。

vLLM v0.22.0でconfig 1行で動かす

EAGLE 3.1はvLLM v0.22.0で正式統合。targetモデルは無変更、起動コマンドにJSONフラグを1つ足すだけだ。

# vLLM v0.22.0 で EAGLE 3.1 を有効化して Kimi K2.6 をサーブする
# --speculative-config はJSONを受け取り、draft model と decoding 法を1行で指定する
vllm serve moonshotai/Kimi-K2.6-Instruct \
  --tensor-parallel-size 8 \
  --speculative-config '{
    "model": "lightseekorg/kimi-k2.6-eagle3.1-mla",
    "method": "eagle3",
    "num_speculative_tokens": 3
  }'

--tensor-parallel-sizeはGPU基数(ここでは8基)。modelはdraftモデルで、末尾のmlaはMulti-head Latent Attention(KVキャッシュ圧縮版。Kimi K2.6本体が採用)対応のdraft。methodは方式宣言でEAGLE-3・3.1ともeagle3(後方互換)。num_speculative_tokensは1回の先読みの深さで3〜8で調整。

自社で有効化判断するなら、vLLM起動時に--enable-metricsを渡せばPrometheusエンドポイントが開き、acceptance rateとacceptance lengthがメトリクスとして取れる。0.7を下回るドメインならdraftモデルの再学習か無効化、が運用判断の足場になる。

バッチが大きい本番では旨味が消えうる

落とし穴は2つ。1つはバッチ実装の正しさ。論文「Batch Speculative Decoding Done Right」は、既存実装の多くがバッチサイズ2以上で出力等価性を保てないと指摘した(提案手法EXSPECはバッチ8でも95%等価性を保ち3×)。もう1つがacceptance rateの低さ。先述のメトリクスで測ってから有効化、が安全策だ。

Shopifyの+38%はEAGLE-3世代の数字

ここからは構成も世代も異なる、ShopifyのEAGLE-3導入で公開された数字を見る。Shopifyの構成はgpt-oss-120B(OpenAIが公開した120Bパラメータの基盤モデル) + vLLM + NVIDIA訓練のEAGLE-3 draft head(3.1世代ではない) + 自社FlashInfer kernel(attention処理を高速化するCUDAカーネル)。全体+38%/−13%のうちspeculative decoding単体は100〜200同時セッション帯で+6%(33K→35K TPS、tokens per second)。原文「validated and queued for production deployment」は本番投入の手前を書き分けている。EAGLE 3.1ならEAGLE-3 draft headを置き換えるだけで、acceptance length 2倍分の上積みが乗る。

その手前で、Ant Group・Meituan・Nex-AGI(中国)とEigenAI(米)もLMSYS(オープンソースLLM推論基盤の研究組織)主導のSpecBundle Phase 1でEAGLE-3系draftを共同公開済み。中国・米国・カナダの大手が同じ手法へ動いたのは、speculative decodingが「研究の優位性」から「インフラの選択肢」へ移った印だ。

どのモデルかから、どこで・どう走らせるかへ

LLMの議論の重心は「どのモデルか」から「どこで・どう走らせるか」に移り始めた。EAGLE 3.1の新しさは、targetに触らずdraft head側の正規化とfeedbackだけでattention driftを畳んだ点。だからvLLM・SGLang(LMSYS発のOSS推論エンジン)・TensorRT-LLM(NVIDIAのGPU向け推論ランタイム)に後方互換で滑り込めた。推論コストとレイテンシに余地があるなら、Prometheus経由でacceptance rateを測り、自社の使用モデルに対応するdraft modelの在庫を確認する価値がある。

参考文献

  1. vLLM Blog - "EAGLE 3.1: Speculative Decoding for the Era of 1T Parameter Models"(2026-05-26) — https://vllm.ai/blog/2026-05-26-eagle-3-1
  2. SafeAILab - EAGLE 公式リポジトリ(GitHub) — https://github.com/SafeAILab/EAGLE
  3. arxiv - "EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test" — https://arxiv.org/html/2503.01840v1
  4. Artiverse - "How EAGLE 3.1 Solves Attention Drift to Speed Up LLMs" — https://www.artiverse.ca/how-eagle-31-solves-attention-drift-to-speed-up-llms/
  5. MarkTechPost - "Meet EAGLE 3.1: The Speculative Decoding Algorithm That Fixes Attention Drift in LLM Inference"(2026-05-27) — https://www.marktechpost.com/2026/05/27/meet-eagle-3-1-the-speculative-decoding-algorithm-that-fixes-attention-drift-in-llm-inference/
  6. HuggingFace - EAGLE プロジェクト公式ハンドル(draft model 一覧) — https://huggingface.co/yuhuili
  7. LMSYS Blog - "SpecBundle Phase 1: Open Speculative Decoding Models for the Community"(2025-12-23) — https://www.lmsys.org/blog/2025-12-23-spec-bundle-phase-1/
  8. HuggingFace - SGLang-EAGLE3-Qwen3-30B-A3B-Instruct-2507-SpecForge-Nex(Nex-AGI 公開モデル) — https://huggingface.co/lmsys/SGLang-EAGLE3-Qwen3-30B-A3B-Instruct-2507-SpecForge-Nex
  9. HuggingFace - SGLang-EAGLE3-Qwen3-Coder-480B-A35B-Instruct-SpecForge-EigenAI(EigenAI 公開モデル) — https://huggingface.co/lmsys/SGLang-EAGLE3-Qwen3-Coder-480B-A35B-Instruct-SpecForge-EigenAI
  10. Shopify Engineering - "SimGym: How Shopify Tests AI at Production Scale"(2026) — https://shopify.engineering/simgym
  11. arxiv - "Batch Speculative Decoding Done Right" — https://arxiv.org/html/2510.22876v3
  12. SyncSoft - "Speculative Decoding in 2026: EAGLE-3, Medusa, DeepSeek MTP" — https://www.syncsoft.ai/en/blog/speculative-decoding-eagle3-medusa-deepseek-mtp-chinese-chuhai-2026
  13. Premai Blog - "Speculative Decoding: 2-3x Faster LLM Inference in 2026" — https://blog.premai.io/speculative-decoding-2-3x-faster-llm-inference-2026/
  14. a16z - "LLMflation: LLM Inference Cost Over Time" — https://a16z.com/llmflation-llm-inference-cost/
  15. Gartner - "Gartner Predicts That by 2030, Performing Inference on an LLM With 1 Trillion Parameters Will Cost GenAI Providers Over 90 Percent Less Than in 2025"(2026-03-25) — https://www.gartner.com/en/newsroom/press-releases/2026-03-25-gartner-predicts-that-by-2030-performing-inference-on-an-llm-with-1-trillion-parameters-will-cost-genai-providers-over-90-percent-less-than-in-2025
  16. TorchSpec - PyTorch native library for training speculative decoding models(公式リポジトリ) — https://github.com/torchspec-project/TorchSpec
  17. Nex-AGI - HuggingFace 公式ハンドル(上海創智学院発の創新連盟) — https://huggingface.co/nex-agi
1
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?