1単語ずつ書くのをやめたLLM『Mercury 2』──並列拡散が示した10倍速の経済性

Posted at 2026-05-22

コーディングエージェントの会話履歴を要約する処理が、約150秒から27秒前後に縮んだ──Augment Codeが本番運用で出した数字だ。同じ処理のコストも90%下がった。引き金はモデルを1つ差し替えたこと。差し替え先のMercury 2は、ChatGPTやClaudeで主流の『1単語ずつ書く』方式を捨て、テキスト全体を並列に書き直す 拡散言語モデル(diffusion LLM) だ。本記事では、Inception Labsが2026年5月14日にGAしたこのモデルの中身、海外で実際に置き換えが進んでいる現場、ここから派生しうるプロダクトの方向性を順に整理する。

「1単語ずつ書く」LLMが抱えていた壁

ChatGPTやClaudeをはじめ、現在主流のLLMは『自己回帰(autoregressive)』と呼ばれる方式でテキストを生成する。直前までに生成した単語を見て次の1単語を予測し、それをまた次の予測の入力に回す逐次的な手順だ。例えるなら、タイプライターで1文字ずつ打ち込んでいく姿に近い。

精度の点では実績がある一方、生成速度はモデルが大きくなるほど伸ばしにくい。2,000トークンの応答を返すには、原理的にモデルを2,000回呼び出す必要がある。『リアルタイムに声で会話する』『コーディングエージェントが大きなファイル全体を要約する』といった、処理速度を決める要因がモデル本体に移ってきたユースケースでは、自己回帰の逐次性がそのまま壁になっていた。

Inception LabsのCEO・Stefano Ermon(スタンフォード大学准教授)は、2025年11月の資金調達発表時にSiliconANGLEに対して『非効率な推論こそが、AI導入における最大の障害でありコスト要因になりつつある』と語っている。Mercury 2は、その壁をモデル側の発想転換で乗り越えにいったモデルだ。

Mercury 2は「下書きを書いて全体を直す」拡散言語モデル

Mercury 2が採用したのは『拡散言語モデル(diffusion LLM、略してdLLM)』と呼ばれるアーキテクチャだ。画像生成のStable DiffusionやMidjourneyに使われている『拡散モデル』(ノイズだらけの状態を少しずつ精緻化して画像にする仕組み)をテキストに転用したもので、生成の手順がまったく違う。

具体的な動きは次の通り。

出力したい長さ分の『マスクされたトークン列』をまず用意する
モデルに通し、各位置のトークンが何であるべきかの確信度を推論する
確信度の高いトークンから順にマスクを外して確定させる
残ったマスクトークンに同じ処理を繰り返し、数ステップで全体が埋まる

Inception公式は『タイプライターより、原稿全体を一気に直す編集者に近い』と表現している。Transformerをベースにしている点は自己回帰LLMと同じだが、訓練時から『複数トークンを並列に予測する』よう学習させているのが核心の違いだ。

この方式の研究自体は数年前まで業界で『テキストには効かない』と広く見られていた。Andrej Karpathyは『画像や動画は拡散を受け入れたのに、テキスト生成が拡散に抵抗してきたのは謎だった』とコメントしている。Stefano Ermon自身も過去のインタビューで『画像やテキストを生成できるソフトをモデル化することに、なぜ予算を出すのか理解されなかった』と述べている。

その『理解されなかった』研究の延長線上で、Ermonが2024年夏に教え子だったUCLAのAditya Grover、CornellのVolodymyr Kuleshovと共同創業したのがInception Labsだ。2025年2月に研究プレビュー版(当時の名称はMercury Coder)を発表し、2025年11月にはMenlo Ventures主導で5,000万ドルの調達を完了。NVIDIA NVentures、Microsoft M12、Snowflake Ventures、Databricks InvestmentにAndrew NgとAndrej Karpathyの個人マネーまで加わっている。reasoning機能まで備えた最初の商用拡散LLMとなったMercury 2は、その延長線上で2026年5月14日にGAされた。

数字で並べる:Mercury 2と自己回帰LLM

Mercury 2の公開数値を、競合と並べて整理すると次のようになる。

項目	数値
ピークスループット(Blackwell GPU)	約1,009 tokens/sec(Inception公表)
第三者計測(Artificial Analysis、10K入力中央値)	755.8 tokens/sec
End-to-endレイテンシ(同一プロンプト)	1.7秒
比較:Gemini 3 Flash	14.4秒
比較:Claude Haiku 4.5	23.4秒
入力単価	$0.25 / 1M tokens
出力単価	$0.75 / 1M tokens
コンテキスト長	128K tokens
配布経路	Inception API、Azure AI Foundry、Vercel AI Gateway、OpenRouter

Mercury 2はOpenAI API互換のチャットエンドポイントで提供される。tool use(関数呼び出し)、JSONスキーマでの出力強制、そしてreasoning_effort(instant / low / medium / high)による推論深度の段階調整、diffusingパラメータで拡散の中間ステップをストリーム観察できる仕組みを備えている。

既存のOpenAI呼び出しから差し替える最小コード

Mercury 2がOpenAI API互換であることの意味は、既存スタックでは base_url とモデル名を差し替えるだけで呼べるという点に尽きる。Python openai SDKでの最小呼び出し例はこうだ。

import os
from openai import OpenAI

# OpenAI互換のため base_url とモデル名を差し替えるだけで動く
client = OpenAI(
    api_key=os.environ["INCEPTION_API_KEY"],
    base_url="https://api.inceptionlabs.ai/v1",
)

response = client.chat.completions.create(
    model="mercury-2",
    messages=[
        {"role": "system", "content": "You summarize long agent histories into a compact handoff note."},
        {"role": "user", "content": long_conversation_log},
    ],
    max_tokens=400,
    extra_body={
        "reasoning_effort": "medium",  # instant / low / medium / high で推論深度を調整
        "diffusing": False,            # True にすると拡散の中間ステップがストリームで観察できる
    },
)
print(response.choices[0].message.content)

reasoning_effort と diffusing はMercury独自の引数で、OpenAI SDKでは extra_body 経由で渡す形になる。Vercel AI Gatewayでも同じ思想で動き、TypeScript側は model: 'inception/mercury-2' と書くだけだ。『LLM呼び出しの全てを置き換える』のではなく『特定の呼び出しだけ拡散に切り替える』ハイブリッド運用が現実的に組める設計になっている。

海外で実際に置き換えた現場4組

Augment Code(米国・コーディングエージェント)──要約処理を90%安く

Augment Codeは『Auggie』『Cosmos』を提供するスタートアップで、Members of Technical StaffのAnkur RustagiとJohn Muが本番運用の数字を公式ブログで公開している。差し替えたのはコンテキスト圧縮(Context Compaction、エージェントの長い会話履歴を要点・関連ファイル・未解決の課題・次の段取りに要約する処理)で、Claude系モデルからMercury 2に切り替えた結果、要約処理のレイテンシが約150秒から27秒前後へと82%下がり、コストは90%減った。同社の動的モデルルーティング機構『Prism Router』では軽量プランナーモデルとしてMercury 2を採用しており、Claude OpusやGPT-5.5へ流すタスクを事前に切り分けることで、フロンティアモデルへの総支出を30%削減できたとしている。

Wispr Flow(米国・音声ディクテーション)──「他に並ぶ速度のモデルはない」

Mac/Windows向け音声ディクテーションアプリWispr Flowの共同創業者・CTOであるSahaj Gargは『Mercury 2に並ぶ速度を出せる他のモデルは見当たらない』と公式ブログにコメントを寄せている。同社のパイプラインは『ユーザーが話した瞬間に文字起こしし、その上でAIが補正・整形する』というもので、補正LLMの応答が遅いとアプリ全体がもたつく。Mercury 2への置き換えで、AIの介入があってもユーザーには『タイピングと同じ即応性』に映るようになった。

Skyvern(米国・ブラウザ自動化エージェント)──GPT-5.2の2倍速で「ゲームチェンジャー」

Skyvernの共同創業者・CTO、Suchintan Singhは『Mercury 2はGPT-5.2より少なくとも2倍速い。我々にとってゲームチェンジャーだ』とInception公式ブログにコメントを寄せている。同社は自然言語の指示でブラウザを自動操作するエージェントを提供しており、Planner(目標分解)→Actor(実行)→Validator(成否確認)というループを回す設計だ。各ステップのモデル応答が累積して総処理時間を決めるため、軽量プランナー層を高速なMercury 2に差し替える価値が大きい。

Happyverse AI(米国・リアルタイム会話アバター)──「会話全体が人間らしく感じられる」

Happyverse AIのCEO・Max Sapoは『Mercury 2は我々の音声スタックで大きなブレイクスルーになった。テキスト生成が高速かつ一貫していることで、対話全体が自然で人間らしく感じられる』とコメントしている。ライフライクなアバターでは口の動きや表情と音声合成のタイミングを揃える必要があり、応答生成側にも一定の予測可能なレイテンシが求められる。

Mercury 2から派生しうるプロダクトの方向性3つ

方向性A(垂直特化):診察音声の「同時要約」サービス

ベース実例:Augment Codeの『Context Compaction』を起点に、長い会話履歴を圧縮する用途を医療領域に持っていく。

発展アイデア:外来の診察音声を院内マイクで拾い、Mercury 2が背後で5〜10秒ごとに『ここまでの要点』『未解決の質問』『次の段取り』を更新し続ける。医師は問診中にディスプレイで確認・修正できる。国内でも問診録音AIサービスは増えているが、『要約に30秒〜1分かかり、処方判断の場で間に合わない』という現場の声がある。Mercury 2のレイテンシ予算なら『医師が画面を見るより前に要約が出ている』体験設計に届く。Claude/GPT系のフロンティアモデルでは要約1回あたりのコストとレイテンシの両方が壁になるため、この技術でなければ成立しないユースケースになる。

方向性B(置換型):既存LLMアプリの「サブエージェント層」を全置換

ベース実例:Augment CodeがPrism Routerで実装した『フロンティアモデル+軽量プランナー』の構造。

発展アイデア:GPTやClaudeを呼んでいる既存SaaSの中には、『メイン推論には強いモデルを使うが、要約・ルーティング・前処理・後処理だけ別モデルでよい』という構造が無数にある。Inception自身はこれを『real-time subagents』と呼ぶ。サブエージェント層だけを『Diffusion Router as a Service』として外販するスタートアップが成立する。導入企業のLLM請求書をAPI経由で取り込み、サブエージェント候補となるリクエストを自動抽出してMercury 2に振り分ける薄いレイヤーを提供する。

方向性C(新カテゴリ):IDEに常駐する「先回り型コードレビュアー」

ベース実例:Wispr Flowの『人が手を動かしている間に並走するAI』とAugment Codeの『長い文脈を即時に要約する』設計の組み合わせ。

発展アイデア:IDE上でファイルを編集している最中に、Mercury 2が常時バックグラウンドで『現在のdiffを読んで、影響を受ける他のファイル・テスト・コメントをリアルタイムに洗い出す』エージェントが組める。GitHub Copilotが『次の1行の補完』に進化したのと別軸で、『人間より一拍速く、コード変更の影響範囲を予告する』常駐レビュアーという新カテゴリだ。Claude Opus級モデルではコスト・レイテンシの両面でこの常時バックグラウンド運用が成立しないため、Mercury 2の経済性が前提になる。

採用前の落とし穴──first-token latencyとLLaDAという選択肢

Mercury 2は万能ではなく、設計上のトレードオフがいくつかある。

最初の1トークンが出るまでが遅い(first-token latency):自己回帰モデルは1単語目を即座にストリームできるが、Mercury 2は数回のdenoising処理が終わるまで何も出ない。チャット画面で『1文字ずつ流れて見える』演出はできず、UX的にタイピング感が必要な場面では別の見せ方が必要になる。MindStudioの分析でも『総スループットでは10倍速だが、最初の出力までは自己回帰のほうが早い』と明確に指摘されている。
ウェイトは非公開のクローズドモデル:Mercury 2はOSSではない。同じ拡散LMでもAnt GroupのLLaDA 2.0/2.1(16Bと100B、MoE、Apache 2.0、約535 tokens/sec)、ByteDance SeedのCola DLM(連続潜在拡散、Apache 2.0)はOSSで、研究や手元での微調整も可能だ。Mercury 2が商用reasoning dLLMとしては先行している一方、『OSSで触りたい』『自社GPUで動かしたい』ニーズには別の選択肢になる。
難問のreasoningベンチマークは限定公開:Inception自身は『first reasoning diffusion LLM』と打ち出しているが、GPQA Diamond等のスコアは公式blog内で限定的に出ている程度。多段推論を要するタスクで本当にClaude Opus/GPT-5.5級になるかは、自社ユースケースでの検証が前提だと考えられる。
OpenAI API互換だがextra_body周りは独自:reasoning_effort と diffusing パラメータは互換APIの拡張で、OpenAI SDKでは extra_body 経由で渡す必要がある。『互換』と言っても完全に同じではない。

もっと深く読みたい人へ

Inception Labs公式「Introducing Mercury 2」(性能・採用社・価格)
Inception Labs公式「Mercury 2 and the Rise of Real-time Subagents」(Augment Code事例の主出典)
Inception Platform Documentation(APIリファレンス、reasoning_effort/diffusing の仕様)
arXiv 2506.17298「Mercury: Ultra-Fast Language Models Based on Diffusion」(原理論文)
Augment Code公式「Introducing Augment Prism: model routing to reduce cost and maintain quality」
LLaDA 2.X(Ant Group/InclusionAI、OSS拡散LM)
ByteDance Seed Cola-DLM GitHub(連続潜在拡散、Apache 2.0)
Artificial Analysis「Mercury 2 Providers」(独立ベンチマーク)

最後に──「サブエージェント層から差し込む」という発想

Mercury 2の興味深い点は『自己回帰LLMを置き換える』と直球で言わず、『サブエージェント層から差し込む』とInception自身が打ち出していることだ。フロンティアモデルが解いているのは多段のreasoning、Mercury 2が解いているのは『reasoningとreasoningのあいだに無数に挟まる小さな処理』のレイテンシとコスト。LLMスタックが1モデルで完結しない時代に入りつつあり、どの層をどのモデルに任せるかという設計判断が、プロダクトの実装速度とユニットエコノミクスの双方を左右しはじめている。

あなたが今使っている GPT や Claude の呼び出しのうち、『要約』『分類』『次のステップを決める』だけに使っている呼び出しは、どれくらいの割合だろうか。その答え方しだいで、Augment Codeのようなコスト90%削減は、明日からでも手元のスタックで再現できるものになっている。

参考文献

Inception Labs - Introducing Mercury 2 (2026-05-14) https://www.inceptionlabs.ai/blog/introducing-mercury-2
Inception Labs - Mercury 2 and the Rise of Real-time Subagents https://www.inceptionlabs.ai/blog/rise-of-realtime-subagents
Inception Labs - Introducing Mercury (v1) https://www.inceptionlabs.ai/blog/introducing-mercury
Inception Labs - The Next Step for dLLMs: Scaling up Mercury https://www.inceptionlabs.ai/blog/mercury-refreshed
Inception Labs - Mercury on Azure AI Foundry https://www.inceptionlabs.ai/blog/mercury-azure-foundry
Inception Labs - Introducing the Inception API https://www.inceptionlabs.ai/blog/introducing-inception-api
Inception Platform Documentation https://docs.inceptionlabs.ai/get-started/get-started
arXiv 2506.17298 - Mercury: Ultra-Fast Language Models Based on Diffusion (Stefano Ermon他) https://arxiv.org/abs/2506.17298
BusinessWire - Inception Raises $50M (2025-11-06) https://www.businesswire.com/news/home/20251106570339/en/Inception-Raises-50M-to-Power-Diffusion-LLMs
SiliconANGLE - Low-latency LLM pioneer Inception nabs $50M led by Menlo Ventures https://siliconangle.com/2025/11/06/low-latency-llm-pioneer-inception-nabs-50m-led-menlo-ventures/
TechCrunch - Inception emerges from stealth with a new type of AI model (2025-02-26) https://techcrunch.com/2025/02/26/inception-emerges-from-stealth-with-a-new-type-of-ai-model/
TechCrunch - Inception raises $50 million to build diffusion models for code and text https://techcrunch.com/2025/11/06/inception-raises-50-million-to-build-diffusion-models-for-code-and-text/
The Decoder - Inception launches Mercury 2, the first diffusion-based language reasoning model https://the-decoder.com/inception-launches-mercury-2-the-first-diffusion-based-language-reasoning-model/
Implicator.ai - Mercury 2 hits 1,009 tokens per second https://www.implicator.ai/inception-ships-mercury-2-a-diffusion-llm-that-hits-1-009-tokens-per-second/
InfoWorld - Inception's Mercury 2 speeds around LLM latency bottleneck https://www.infoworld.com/article/4137528/inceptions-mercury-2-speeds-around-llm-latency-bottleneck.html
Artificial Analysis - Mercury 2 Providers (independent benchmark) https://artificialanalysis.ai/models/mercury-2/providers
OpenRouter - Mercury 2 API & Pricing https://openrouter.ai/inception/mercury-2
Vercel AI Gateway - Mercury 2 model card https://vercel.com/ai-gateway/models/mercury-2
Augment Code - Introducing Augment Prism: model routing to reduce cost and maintain quality https://www.augmentcode.com/blog/augment-prism-model-routing-to-reduce-cost-and-maintain-quality
DataCamp - Mercury 2 Tutorial (reasoning_effort / diffusing パラメータの動作確認) https://www.datacamp.com/tutorial/mercury-2-tutorial
MindStudio - What Is Mercury 2: first-token latency分析 https://www.mindstudio.ai/blog/what-is-mercury-2-diffusion-language-model-inception-labs
Digital Applied - Mercury 2 Diffusion LLM Speed Guide https://www.digitalapplied.com/blog/inception-labs-mercury-2-diffusion-llm-speed-guide
Alejandro Cremades - Stefano Ermon インタビュー(Stanford での研究経緯) https://alejandrocremades.com/stefano-ermon/
Maginative - Inception Labs Launches Mercury, the First Commercial Diffusion-Based Language Model (Karpathy発言を含む) https://www.maginative.com/article/inception-labs-launches-mercury-the-first-commercial-diffusion-based-language-model/
LLaDA 2.X GitHub (Ant Group/InclusionAI、OSS拡散LM、100B MoE) https://github.com/inclusionAI/LLaDA2.X
ByteDance Seed Cola-DLM GitHub https://github.com/ByteDance-Seed/Cola-DLM
arXiv 2605.06548 - Continuous Latent Diffusion Language Model (Cola DLM論文) https://arxiv.org/abs/2605.06548

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up