0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Moonshot AI Kimi K2.6とは──5日間連続自律と300エージェント並列を実現する1兆MoE

0
Posted at

13時間で金融マッチングエンジンを書き換え、スループット185%改善——Moonshot公式が公表したK2.6の実演事例だ。中国Moonshot AIが2026年4月20日に公開したKimi K2.6は、Claude Opus 4.6を上回るオープンウェイト(学習済みAIのパラメータを公開する概念)1兆パラメータMoEだ。300のサブエージェントを4,000ステップ並列で走らせ、5日間連続の自律実行に届いたMoonshot自社の運用記録も残る。Kimi K2.6とは何か、中身を解いていく。

まず3つの公式用語を分けて読む──Long-Horizon Coding・Agent Swarm・Claw Groups

Moonshot公式ブログは似た固有名詞を続けて使う。最初に整理する。

  • Long-Horizon Coding:数千ステップを跨ぐ「長期自律コーディング」の総称。Kimi K2.6が踏み込んだと公式が呼ぶ領域
  • Agent Swarm:300個のサブエージェントを並列起動し、4,000ステップで協調させる本体機能
  • Claw Groups:別モデル・別マシン上のエージェントも束ねる、公式が「プレビュー段階」と表現する管理機能

3用語ともMoonshot独自の命名で、定義はすべてMoonshot公式ブログに紐付く。業界一般の概念名と読まないのが安全だ。

1兆パラメータと32B活性──Kimi K2.6の中身

3点で全体像をつかむ。総量1兆パラメータ推論時に動くのは32Bだけコンテキスト256Kトークン。仕組みはMoE(Mixture of Experts、得意分野別のサブネット群)で、1トークン推論ごとに384専門家のうち8個+共有1個=計32Bだけが動く。専門家1個の平均は1兆÷384≒約2.6B、それを9個ぶん集めて32Bになる計算だ。1兆の総量は最先端のLLM並みの知識を抱えるためで、毎回の計算負荷は中型モデル並みに抑えられる。

注意の仕組みはMulti-head Latent Attention(MLA、過去の文脈を覚えるKVキャッシュを小さく圧縮してメモリを節約する仕組み)。配布時点でINT4量子化対応訓練(QAT、4ビット精度でも品質を保つ訓練)済みで、本番は8×H100または8×H200の1ノードに収まる。

4つの軸で読むベンチマーク

Kimi K2.6が得意なのは「長く走るコーディング」、不得意なのは「単発の数式推論」だ。

  • コーディング:SWE-Bench Verified 80.2%、SWE-Bench Pro 58.6%、Terminal-Bench 2.0 66.7%。SWE-Bench ProではClaude Opus 4.6の53.4%、GPT-5.4の57.7%、Gemini 3.1 Proの54.2%を上回り、オープン重み最上位
  • ツール使用:Humanity's Last Exam(ツール有り部門)で54.0%・1位
  • 数式推論:AIME 2026は96.4。GPT-5.4の99.2には届かない
  • 総合:Artificial Analysis(主要ベンチを横断計測する独立評価機関)が公表するIntelligence Index(各ベンチを合成した知能スコア)で全体4位。事実でない回答を出す率(ハルシネーション率)もK2.5の65%から39%へ低下

300並列・4,000ステップを動かすAgent Swarmの中身

Agent Swarmは、最大300個の役割特化サブエージェントを立ち上げ、1ランで4,000ステップを跨ぐ。タスクは動的に分解され、Webサーチ・ドキュメント解析・コード変更・テスト走行が同時並走する。失敗が検知されれば司令塔のKimi K2.6が再投入を指示し、次の分解ステップへ進む──「動的分解→並走→失敗検知→再投入」のループを最大4,000回繰り返す設計だ。

ジョブキューやKubernetes風の本番運用設計は公式に詳述されておらず、実装側の責務になる。Claw Groupsを使った別モデル混在は、Moonshot自身が「プレビュー段階」と表現する位置付けで、本番採用は現時点では限定的だ。

OpenAI互換APIで動かす──複数ターンの形

APIはOpenAI互換で、Claude/GPT用コードからは base_urlmodel の差し替えだけで動く。長期自律の主題に合わせて、ツール呼び出しを反復する最小例を示す。

from openai import OpenAI

client = OpenAI(
    api_key="MOONSHOT_API_KEY",
    base_url="https://api.moonshot.ai/v1",
)

tools = [
    {
        "type": "function",
        "function": {
            "name": "run_pytest",
            "description": "指定パスでpytestを実行し失敗テストを返す",
            "parameters": {
                "type": "object",
                "properties": {"path": {"type": "string"}},
                "required": ["path"],
            },
        },
    },
]

messages = [
    {"role": "system", "content": "あなたは長期実行のコーディングエージェントです。"},
    {"role": "user", "content": "テスト失敗を1件ずつ直し、コミットメッセージも作成して。"},
]

# Agent Swarm の動きを擬似再現:ツール呼び出しが返らなくなるまで反復
while True:
    res = client.chat.completions.create(
        model="kimi-k2.6", messages=messages, tools=tools, tool_choice="auto",
    )
    msg = res.choices[0].message
    if not msg.tool_calls:
        break
    messages.append(msg)  # 実行結果を messages に積んで次ターンへ

自前ホスト(8×H100/8×H200を持つ層向け)は、LLM配布の中心地Hugging Faceから重み(モデルのパラメータ)を取得し vllm serve $MODEL_PATH -tp 8 --tool-call-parser kimi_k2 --reasoning-parser kimi_k2 --trust-remote-code で推論ライブラリvLLM 0.19.1上に立ち上げる。-tp 8 はテンソル並列度8(GPU 8枚で1モデルを分割実行)の指定。完全な動作例は公式デプロイガイドを参照したい。

Vercel・Cerebras・Microsoft──Kimi K2.6が組み込まれた海外3社

Vercel(米、フロントエンド/フルスタックウェブ基盤、評価額93億ドル)は2026年4月、AI Gatewayに moonshotai/kimi-k2.6 のIDでKimi K2.6を統合した。社内のNext.js生成ベンチマークでK2.5比+50%超の改善を公表し、App Router(Next.jsの新ページ管理機構)やServer Components(サーバ側でレンダリングするReact部品)を含むモダンフロントエンド領域への手当てに位置付けられた。アーキテクチャ全面置換ではなくモデル選択肢にIDを追加した形のため、既存利用者はGatewayの設定変更だけで切り替えられる。

Cerebras(米、ウェハスケールAIチップとクラウド推論)は同社のCS-3(1枚のシリコンウェハを丸ごと1つのチップにした巨大プロセッサ)上で981トークン/秒を計測した。Artificial Analysisによれば次速のGPUクラウドの6.7倍、10,000トークン入力ではMoonshot公式API 163.7秒に対し5.6秒(29倍)に縮む。1兆MoEの長期自律実行を秒オーダーに圧縮する経路として独立評価された。

Microsoft Azure AI Foundryは2026年4月、データ保護とコンプライアンス対応を備えたエンタープライズ向けホスティングとしてKimi K2.6を提供開始。米欧企業が中国モデルを「データを国外に出さずに」試せる導線として位置付けられている。

Claude Opus・GPT-5.4・DeepSeek V4と並べて読む

価格:Claude Opus 4.7は同等入出力でKimi K2.6比5〜7倍。Kimi K2.6はMoonshot公式APIで入力$0.95/出力$4.00(100万トークン)、自前ホストの逃げ道もある。

思想:Claudeが「単発で正解を出す」、Moonshotが「数千ステップで安定走行する」──ベットの方向が違う。マルチエージェント協調を評価するOSSベンチマーク群Kilo Codeでは、Claude Opus 4.7が91/100点に対しKimi K2.6が68/100点。短いタスクで高精度を狙うならClaude、長いタスクをコスト抑えて走らせるならKimi K2.6だ。

領域:DeepSeek V4が1M文脈と効率(計算量削減)に振る一方、Kimi K2.6は256K文脈と300並列・長期自律に振っている。同じMoEでも目指す山が違う(価格はClaude Opus 4.7時点、SWE-Bench Pro比較はClaude Opus 4.6の公表値で、時系列差で版が混在する点に留意)。

Modified MITと8×H100──採用前の3点

ライセンス:Modified MITで、月間アクティブユーザー1億超または月収2,000万ドル超の商用利用時にUI上の「Kimi K2.6」ブランド表示が必須になる。閾値が高いため、中規模スタートアップでは実害はほぼない。ハードウェア:8×H100または8×H200の1ノード(おおよそ8〜10万ドル相当)が前提で、これ未満の規模ではMoonshot公式APIやVercel AI Gateway経由が現実解だ。ガバナンス:中国産モデルのデータ取扱いは日本/欧米企業の規制部門が懸念する論点で、採用判断に含めるのが筋だ。

「人が席を立った後も働き続ける」場所を、誰が取りに来るか

オープン重みLLMは「フロンティア追従」の枠を超え、長く走らせるかどうかという別軸へ分かれ始めている。Kimi K2.6は単発の正解では依然Claude/GPTに譲るが、数千ステップを止まらず走らせる場面では、現時点で最も実用的なオープン重みだ。夜間バッチの後監視、レビューキュー消化、テスト失敗の修正PR起こし──人が席を立っている間に何時間任せられるか、Kimi K2.6の300並列で何が解けるか。問い直す価値が出てきた。

参考文献

  1. Moonshot AI公式ブログ - Kimi K2.6 Tech Blog https://www.kimi.com/blog/kimi-k2-6
  2. Hugging Face公式モデルカード - Kimi-K2.6 https://huggingface.co/moonshotai/Kimi-K2.6
  3. Hugging Face - 公式デプロイガイド(vLLM/SGLang/KTransformers) https://huggingface.co/moonshotai/Kimi-K2.6/blob/main/docs/deploy_guidance.md
  4. Hugging Face - Modified MIT LICENSE 全文 https://huggingface.co/moonshotai/Kimi-K2.6/blob/main/LICENSE
  5. Moonshot AI Platform - API/価格表 https://platform.moonshot.ai
  6. Moonshot AI公式GitHub https://github.com/MoonshotAI
  7. Cerebras公式 - Kimi K2.6 Enterprise(981 tok/s、6.7倍/29倍) https://www.cerebras.ai/blog/cerebras-kimi-k2-Enterprise
  8. Vercel公式 - Kimi K2.6 on AI Gateway changelog https://vercel.com/changelog/kimi-k2.6-on-ai-gateway
  9. Vercel AI Gateway - Kimi K2モデル仕様 https://vercel.com/ai-gateway/models/kimi-k2
  10. Microsoft Azure AI Foundry公式 - Introducing Kimi K2.6 https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/introducing-kimi-k2-6-in-microsoft-foundry/4513125
  11. Artificial Analysis - The New Leading Open Weights Model https://artificialanalysis.ai/articles/kimi-k2-6-the-new-leading-open-weights-model
  12. MarkTechPost - リリース解説(300-Agent Swarm/4,000ステップ) https://www.marktechpost.com/2026/04/20/moonshot-ai-releases-kimi-k2-6-with-long-horizon-coding-agent-swarm-scaling-to-300-sub-agents-and-4000-coordinated-steps/
  13. Vercel - Towards the AI Cloud: Our Series F(評価額93億ドル) https://vercel.com/blog/series-f
  14. Hyperstack - Kimi K2.6 Benchmarks(全ベンチ横並び) https://www.hyperstack.cloud/blog/thought-leadership/kimi-k2.6-benchmarks
  15. Kilo Code Blog - We Gave Claude Opus 4.7 and Kimi K2.6 the Same Workflow https://blog.kilo.ai/p/we-gave-claude-opus-47-and-kimi-k26
  16. Verdent Guides - Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 https://www.verdent.ai/guides/kimi-k2-6-vs-claude-opus-4-6-vs-gpt-5-4
  17. Miraflow - Kimi K2.6 Explained(GPT-5.5比較) https://miraflow.ai/blog/kimi-k2-6-explained-moonshot-ai-open-source-model-ties-gpt-5-5-coding
  18. Kimi.ai (公式X) - exchange-core 13時間自律最適化の告知 https://x.com/Kimi_Moonshot/status/2046531057147933137
  19. Kimi Platform Docs - kimi-k2.6 Quickstart(モデルID表記) https://platform.kimi.ai/docs/guide/kimi-k2-6-quickstart
  20. Handy AI Substack - Model Drop: Kimi K2.6(独立評価・限界) https://handyai.substack.com/p/model-drop-kimi-k26
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?