Moonshot AI Kimi K2.6とは──5日間連続自律と300エージェント並列を実現する1兆MoE

Posted at 2026-05-29

13時間で金融マッチングエンジンを書き換え、スループット185%改善——Moonshot公式が公表したK2.6の実演事例だ。中国Moonshot AIが2026年4月20日に公開したKimi K2.6は、Claude Opus 4.6を上回るオープンウェイト(学習済みAIのパラメータを公開する概念)1兆パラメータMoEだ。300のサブエージェントを4,000ステップ並列で走らせ、5日間連続の自律実行に届いたMoonshot自社の運用記録も残る。Kimi K2.6とは何か、中身を解いていく。

まず3つの公式用語を分けて読む──Long-Horizon Coding・Agent Swarm・Claw Groups

Moonshot公式ブログは似た固有名詞を続けて使う。最初に整理する。

Long-Horizon Coding:数千ステップを跨ぐ「長期自律コーディング」の総称。Kimi K2.6が踏み込んだと公式が呼ぶ領域
Agent Swarm:300個のサブエージェントを並列起動し、4,000ステップで協調させる本体機能
Claw Groups:別モデル・別マシン上のエージェントも束ねる、公式が「プレビュー段階」と表現する管理機能

3用語ともMoonshot独自の命名で、定義はすべてMoonshot公式ブログに紐付く。業界一般の概念名と読まないのが安全だ。

1兆パラメータと32B活性──Kimi K2.6の中身

3点で全体像をつかむ。総量1兆パラメータ、推論時に動くのは32Bだけ、コンテキスト256Kトークン。仕組みはMoE(Mixture of Experts、得意分野別のサブネット群)で、1トークン推論ごとに384専門家のうち8個+共有1個=計32Bだけが動く。専門家1個の平均は1兆÷384≒約2.6B、それを9個ぶん集めて32Bになる計算だ。1兆の総量は最先端のLLM並みの知識を抱えるためで、毎回の計算負荷は中型モデル並みに抑えられる。

注意の仕組みはMulti-head Latent Attention(MLA、過去の文脈を覚えるKVキャッシュを小さく圧縮してメモリを節約する仕組み)。配布時点でINT4量子化対応訓練(QAT、4ビット精度でも品質を保つ訓練)済みで、本番は8×H100または8×H200の1ノードに収まる。

4つの軸で読むベンチマーク

Kimi K2.6が得意なのは「長く走るコーディング」、不得意なのは「単発の数式推論」だ。

コーディング:SWE-Bench Verified 80.2%、SWE-Bench Pro 58.6%、Terminal-Bench 2.0 66.7%。SWE-Bench ProではClaude Opus 4.6の53.4%、GPT-5.4の57.7%、Gemini 3.1 Proの54.2%を上回り、オープン重み最上位
ツール使用:Humanity's Last Exam(ツール有り部門)で54.0%・1位
数式推論:AIME 2026は96.4。GPT-5.4の99.2には届かない
総合:Artificial Analysis(主要ベンチを横断計測する独立評価機関)が公表するIntelligence Index(各ベンチを合成した知能スコア)で全体4位。事実でない回答を出す率(ハルシネーション率)もK2.5の65%から39%へ低下

300並列・4,000ステップを動かすAgent Swarmの中身

Agent Swarmは、最大300個の役割特化サブエージェントを立ち上げ、1ランで4,000ステップを跨ぐ。タスクは動的に分解され、Webサーチ・ドキュメント解析・コード変更・テスト走行が同時並走する。失敗が検知されれば司令塔のKimi K2.6が再投入を指示し、次の分解ステップへ進む──「動的分解→並走→失敗検知→再投入」のループを最大4,000回繰り返す設計だ。

ジョブキューやKubernetes風の本番運用設計は公式に詳述されておらず、実装側の責務になる。Claw Groupsを使った別モデル混在は、Moonshot自身が「プレビュー段階」と表現する位置付けで、本番採用は現時点では限定的だ。

OpenAI互換APIで動かす──複数ターンの形

APIはOpenAI互換で、Claude/GPT用コードからは base_url と model の差し替えだけで動く。長期自律の主題に合わせて、ツール呼び出しを反復する最小例を示す。

from openai import OpenAI

client = OpenAI(
    api_key="MOONSHOT_API_KEY",
    base_url="https://api.moonshot.ai/v1",
)

tools = [
    {
        "type": "function",
        "function": {
            "name": "run_pytest",
            "description": "指定パスでpytestを実行し失敗テストを返す",
            "parameters": {
                "type": "object",
                "properties": {"path": {"type": "string"}},
                "required": ["path"],
            },
        },
    },
]

messages = [
    {"role": "system", "content": "あなたは長期実行のコーディングエージェントです。"},
    {"role": "user", "content": "テスト失敗を1件ずつ直し、コミットメッセージも作成して。"},
]

# Agent Swarm の動きを擬似再現:ツール呼び出しが返らなくなるまで反復
while True:
    res = client.chat.completions.create(
        model="kimi-k2.6", messages=messages, tools=tools, tool_choice="auto",
    )
    msg = res.choices[0].message
    if not msg.tool_calls:
        break
    messages.append(msg)  # 実行結果を messages に積んで次ターンへ

自前ホスト(8×H100/8×H200を持つ層向け)は、LLM配布の中心地Hugging Faceから重み(モデルのパラメータ)を取得し vllm serve $MODEL_PATH -tp 8 --tool-call-parser kimi_k2 --reasoning-parser kimi_k2 --trust-remote-code で推論ライブラリvLLM 0.19.1上に立ち上げる。-tp 8 はテンソル並列度8(GPU 8枚で1モデルを分割実行)の指定。完全な動作例は公式デプロイガイドを参照したい。

Vercel・Cerebras・Microsoft──Kimi K2.6が組み込まれた海外3社

Vercel(米、フロントエンド/フルスタックウェブ基盤、評価額93億ドル)は2026年4月、AI Gatewayに moonshotai/kimi-k2.6 のIDでKimi K2.6を統合した。社内のNext.js生成ベンチマークでK2.5比+50%超の改善を公表し、App Router(Next.jsの新ページ管理機構)やServer Components(サーバ側でレンダリングするReact部品)を含むモダンフロントエンド領域への手当てに位置付けられた。アーキテクチャ全面置換ではなくモデル選択肢にIDを追加した形のため、既存利用者はGatewayの設定変更だけで切り替えられる。

Cerebras(米、ウェハスケールAIチップとクラウド推論)は同社のCS-3(1枚のシリコンウェハを丸ごと1つのチップにした巨大プロセッサ)上で981トークン/秒を計測した。Artificial Analysisによれば次速のGPUクラウドの6.7倍、10,000トークン入力ではMoonshot公式API 163.7秒に対し5.6秒(29倍)に縮む。1兆MoEの長期自律実行を秒オーダーに圧縮する経路として独立評価された。

Microsoft Azure AI Foundryは2026年4月、データ保護とコンプライアンス対応を備えたエンタープライズ向けホスティングとしてKimi K2.6を提供開始。米欧企業が中国モデルを「データを国外に出さずに」試せる導線として位置付けられている。

Claude Opus・GPT-5.4・DeepSeek V4と並べて読む

価格:Claude Opus 4.7は同等入出力でKimi K2.6比5〜7倍。Kimi K2.6はMoonshot公式APIで入力$0.95/出力$4.00(100万トークン)、自前ホストの逃げ道もある。

思想:Claudeが「単発で正解を出す」、Moonshotが「数千ステップで安定走行する」──ベットの方向が違う。マルチエージェント協調を評価するOSSベンチマーク群Kilo Codeでは、Claude Opus 4.7が91/100点に対しKimi K2.6が68/100点。短いタスクで高精度を狙うならClaude、長いタスクをコスト抑えて走らせるならKimi K2.6だ。

領域:DeepSeek V4が1M文脈と効率(計算量削減)に振る一方、Kimi K2.6は256K文脈と300並列・長期自律に振っている。同じMoEでも目指す山が違う(価格はClaude Opus 4.7時点、SWE-Bench Pro比較はClaude Opus 4.6の公表値で、時系列差で版が混在する点に留意)。

Modified MITと8×H100──採用前の3点

ライセンス:Modified MITで、月間アクティブユーザー1億超または月収2,000万ドル超の商用利用時にUI上の「Kimi K2.6」ブランド表示が必須になる。閾値が高いため、中規模スタートアップでは実害はほぼない。ハードウェア:8×H100または8×H200の1ノード(おおよそ8〜10万ドル相当)が前提で、これ未満の規模ではMoonshot公式APIやVercel AI Gateway経由が現実解だ。ガバナンス:中国産モデルのデータ取扱いは日本/欧米企業の規制部門が懸念する論点で、採用判断に含めるのが筋だ。

「人が席を立った後も働き続ける」場所を、誰が取りに来るか

オープン重みLLMは「フロンティア追従」の枠を超え、長く走らせるかどうかという別軸へ分かれ始めている。Kimi K2.6は単発の正解では依然Claude/GPTに譲るが、数千ステップを止まらず走らせる場面では、現時点で最も実用的なオープン重みだ。夜間バッチの後監視、レビューキュー消化、テスト失敗の修正PR起こし──人が席を立っている間に何時間任せられるか、Kimi K2.6の300並列で何が解けるか。問い直す価値が出てきた。

参考文献

Moonshot AI公式ブログ - Kimi K2.6 Tech Blog https://www.kimi.com/blog/kimi-k2-6
Hugging Face公式モデルカード - Kimi-K2.6 https://huggingface.co/moonshotai/Kimi-K2.6
Hugging Face - 公式デプロイガイド(vLLM/SGLang/KTransformers) https://huggingface.co/moonshotai/Kimi-K2.6/blob/main/docs/deploy_guidance.md
Hugging Face - Modified MIT LICENSE 全文 https://huggingface.co/moonshotai/Kimi-K2.6/blob/main/LICENSE
Moonshot AI Platform - API/価格表 https://platform.moonshot.ai
Moonshot AI公式GitHub https://github.com/MoonshotAI
Cerebras公式 - Kimi K2.6 Enterprise(981 tok/s、6.7倍/29倍) https://www.cerebras.ai/blog/cerebras-kimi-k2-Enterprise
Vercel公式 - Kimi K2.6 on AI Gateway changelog https://vercel.com/changelog/kimi-k2.6-on-ai-gateway
Vercel AI Gateway - Kimi K2モデル仕様 https://vercel.com/ai-gateway/models/kimi-k2
Microsoft Azure AI Foundry公式 - Introducing Kimi K2.6 https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/introducing-kimi-k2-6-in-microsoft-foundry/4513125
Artificial Analysis - The New Leading Open Weights Model https://artificialanalysis.ai/articles/kimi-k2-6-the-new-leading-open-weights-model
MarkTechPost - リリース解説(300-Agent Swarm/4,000ステップ) https://www.marktechpost.com/2026/04/20/moonshot-ai-releases-kimi-k2-6-with-long-horizon-coding-agent-swarm-scaling-to-300-sub-agents-and-4000-coordinated-steps/
Vercel - Towards the AI Cloud: Our Series F(評価額93億ドル) https://vercel.com/blog/series-f
Hyperstack - Kimi K2.6 Benchmarks(全ベンチ横並び) https://www.hyperstack.cloud/blog/thought-leadership/kimi-k2.6-benchmarks
Kilo Code Blog - We Gave Claude Opus 4.7 and Kimi K2.6 the Same Workflow https://blog.kilo.ai/p/we-gave-claude-opus-47-and-kimi-k26
Verdent Guides - Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 https://www.verdent.ai/guides/kimi-k2-6-vs-claude-opus-4-6-vs-gpt-5-4
Miraflow - Kimi K2.6 Explained(GPT-5.5比較) https://miraflow.ai/blog/kimi-k2-6-explained-moonshot-ai-open-source-model-ties-gpt-5-5-coding
Kimi.ai (公式X) - exchange-core 13時間自律最適化の告知 https://x.com/Kimi_Moonshot/status/2046531057147933137
Kimi Platform Docs - kimi-k2.6 Quickstart(モデルID表記) https://platform.kimi.ai/docs/guide/kimi-k2-6-quickstart
Handy AI Substack - Model Drop: Kimi K2.6(独立評価・限界) https://handyai.substack.com/p/model-drop-kimi-k26

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up