Claude Code × Kimi K2.5 ハイブリッド環境を構築した ── Opus が設計し、K2.5 が実装する開発フロー

Posted at 2026-02-24

Claude Code (Opus 4.6) は Claude ファミリーの最上位モデルで、複雑な設計判断に向いています。しかしトークン単価の高さが悩みどころです。定型的な実装タスクにも Opus を使うのはもったいない。

そこで目をつけたのが、Moonshot AI の Kimi K2.5 です。

Kimi K2.5 という選択肢

Kimi K2.5 は 2026年1月に公開された1兆パラメータの MoE モデルです。CLI ベースのコーディングエージェント「Kimi Code」として動作し、Claude Code と同じくターミナル上でファイル編集・コマンド実行・テストを自律的にこなします。

単体性能だけでも注目に値します。

ベンチマーク	Kimi K2.5	Claude Opus 4.5	GPT-5.2
SWE-Bench Verified	76.8%	80.9%	80.0%
AIME 2025	96.1%	92.8%	—
LiveCodeBench v6	85.0%	—	—

SWE-Bench で Opus に迫り、数学推論では上回る。Moderato プラン（執筆時点で $19/月、2048リクエスト/週）でこの性能が使えるのはコスパとして優秀です。

しかし Kimi K2.5 の真の差別化ポイントはベンチマークスコアではありません。Agent Swarm です。

Agent Swarm——群知能という発想

Agent Swarm は、最大100体のサブエージェントを同時起動し、最大1,500回のツール呼出を並列実行するアーキテクチャです。内部にオーケストレーターがいて、タスクを並列化可能なサブタスクに分解し、専門化したエージェント（AI Researcher、Fact Checker 等）に振り分けます。

BrowseComp では通常モードの 60.6% が Agent Swarm で 78.4% に跳ね上がり、実行時間は最大 4.5倍短縮されます。「そこそこ賢いモデルの群れは、1体の非常に賢いモデルより実務タスクの遂行能力が高い」——これが Moonshot AI の提唱する群知能の考え方です。

設計の着眼点: 群知能の強みと弱み

ベンチマークと Agent Swarm の仕組みを見て、ある仮説を立てました。

Kimi の強みは 並列実行力 です。spec で明確に指示されたタスクを多数のエージェントが一斉にこなす部分で真価を発揮します。一方、「何を作るか」「どう設計するか」というハイレベルな設計判断は、群知能の守備範囲ではありません。Kimi の内部オーケストレーターはタスク分解と並列化に最適化されており、アーキテクチャ設計やトレードオフの判断を担う「上位オーケストレーター」の役割は想定されていないはずです。

つまり Kimi は優秀なワーカーだが、オーケストレーターには向かない。ならば、Opus がオーケストレーター（設計・判断・レビュー）を担い、Kimi がワーカー（実装・テスト）を担う分業が自然な構成です。

ここでもうひとつ考えるべきことがあります。Kimi にどうやって指示を出すか、です。人間向けの plan（「auth モジュールを修正して」）をそのまま渡すと、Kimi は「どのファイル？」「完了条件は？」と探索に時間を使います。群知能の並列実行力を活かすには、具体的なファイルパス・検証コマンド・並列実行のヒントを含む、エージェント向けの構造化された仕様書が必要です。これを spec.md と呼ぶことにしました。

アーキテクチャ: オーケストレーター + ワーカー

この分析から、以下の構成を設計しました。Opus が plan を作成し、承認後に spec.md へ変換して Kimi に渡します。

ユーザー
  ↓ タスク依頼
Claude Code (Opus 4.6) ── オーケストレーター
  ├── plan 作成（設計判断）
  ├── Kimi 委任判断
  ├── plan → spec.md 変換
  ├── ディスパッチ
  └── レビュー
        ↓ spec.md
Kimi K2.5 ── ワーカー
  ├── spec に基づき実装（群知能の強みを活かす）
  ├── テスト実行
  └── 結果返却（隔離ブランチ上）

Opus の設計力と Kimi の実行力を組み合わせる構成です。Kimi の変更は必ず隔離ブランチ上で行い、Claude がレビューしてからマージする安全設計になっています。

最初の設計: 2ステップコマンド

最初に作ったのは2つのスラッシュコマンドでした。

/kimi-spec <タスク概要>    → spec.md を生成
/kimi-dispatch <spec-path> → Kimi に渡して実行

これはこれで動きます。ですが使ってみると コマンドを2つ覚える必要がある という認知負荷がありました。

転換点:「plan mode に統合できないか？」

Claude Code には plan mode があります（Shift+Tab または /plan で切り替え）。複雑なタスクでは plan を作成し、ユーザーが承認してから実装に入る仕組みです。このフローに乗せれば、ユーザーは新しいコマンドを覚える必要がありません。

通常フロー:
1. ユーザーがタスク依頼
2. Claude が plan 作成
3. ユーザーが承認 → Claude が実装

ハイブリッドフロー:
1. ユーザーがタスク依頼
2. Claude が plan 作成
3. ユーザーが承認時に選択:
   - 「Claude が実装」→ 通常通り
   - 「Kimi に委任」→ plan → spec 変換 → Kimi ディスパッチ

ユーザーにとっては「いつもの承認画面にもう1つ選択肢が増えた」だけです。認知負荷ゼロ。

spec.md は本当に必要か？——設計判断の議論

ここで一度立ち止まりました。plan mode に統合するなら、plan ファイルをそのまま Kimi に渡せばいいのでは？わざわざ spec.md に変換するステップは、Opus のトークンを消費する無駄な中間工程ではないか？

実際、一度は「plan をそのまま渡せばいい」と撤回しかけました。ですが冷静に比較すると、両者の役割は明確に異なります。

	plan	spec.md
読者	人間 + Claude	Kimi（自律エージェント）
パス指定	「auth モジュールを修正」	`MODIFY src/auth/handler.ts`
完了定義	「テストが通ること」	`pytest --cov=src` で 80%+
並列ヒント	なし	`[INDEPENDENT]` タグ

plan と spec は読者が違います。 plan は人間が読んで判断するものであり、spec は自律エージェントが迷わず実行するための指示書です。

Kimi K2.5 は十分賢いので曖昧な指示でも動きます。ですが Moderato プランの 2048リクエスト/週 という制約下では、Kimi が「どのファイルだろう？」と探し回るステップの浪費は大きいです。

Opus の変換コスト: 数千トークン（安い）
Kimi のステップ節約: 10〜20ステップ/タスク（クォータ直撃）

spec 変換は クォータ節約への投資 です。結論として残すことにしました。

実装: Kimi にルールを作らせる

ハイブリッド環境の初実戦として、「plan mode 統合ルール」の作成を Kimi 自身に委任しました。

spec.md の内容

# Spec: 001 -- Kimi Plan Integration

## Tasks
### Task 1: Kimi 委任ルール作成 [INDEPENDENT]

Files to create:
- CREATE ~/.claude/rules/common/kimi-delegation.md

Requirements:
- When to Suggest（提案基準）
- When NOT to Suggest（禁止事項）
- Plan Approval Flow（承認フロー）
- Plan to Spec Conversion（変換手順）
- Quota Awareness（クォータ意識）

Verification:
- 5セクション存在確認
- kimi-wrapper.sh への参照確認

Kimi の実行結果

$ kimi --prompt "$(cat spec-001.md)" --thinking --yolo --max-steps-per-turn 100

実際には kimi-wrapper.sh がモデル指定や作業ディレクトリの付与も行いますが、本質的なオプションは上記の通りです。

初回ディスパッチの結果は約10秒。6ステップ。 既存ルールファイル3つを読み → フォーマットを把握 → 119行のルールファイルを生成 → 検証パス。

spec で具体的なパス・セクション構造・検証コマンドまで指定したので、Kimi が「何を作るか」で一切迷いませんでした。

生成されたルールの品質

# Kimi Delegation

## When to Suggest
- 単純な実装タスク — ボイラープレート、CRUD、定型パターン
- 複数ファイルの機械的変更 — リネーム、フォーマット統一
- ユーザーが明示的に Kimi を指定
...

## Quota Awareness
| 変更規模 | 推奨アプローチ |
|----------|---------------|
| 1-2ファイル、50行以下 | Claude 直接実装 |
| 3ファイル以上、100行以上 | Kimi 委任を積極提案 |

既存ルールのフォーマットと一貫しており、判断基準も具体的です。Opus のレビューでも修正なしでパスしました。

ファイル構成（全体像）

最終的に構築したハイブリッド環境のファイル一覧です。

~/.kimi/
├── config.toml          # Moderato プロファイル（max_steps=100）
├── config.swarm.toml    # Swarm バックアップ
└── credentials/         # OAuth 認証情報

~/.claude/
├── bin/
│   ├── kimi-wrapper.sh          # Claude → Kimi ディスパッチャー
│   └── kimi-profile-switch.sh   # Moderato ⇔ Swarm 切替
├── commands/
│   ├── kimi-spec.md             # spec 生成（手動用）
│   └── kimi-dispatch.md         # ディスパッチ & レビュー（手動用）
├── rules/common/
│   └── kimi-delegation.md       # plan mode 統合ルール ← Kimi が作成
└── templates/hybrid/
    └── spec-template.md         # spec テンプレート

Moderato プランの最適化設定

Kimi Moderato プラン（$19/月）の制約と、それに合わせた設定です。

設定	値	Why
max_steps_per_turn	100	ステップ数 = リクエスト消費量
tool_call_timeout_ms	120000	並列ツール呼出を活かすため維持
wrapper TIMEOUT	300s	100ステップなら300sで十分

Swarm プランにアップグレードした場合は kimi-profile-switch.sh swarm 一発で切り替えられます。

## 得られた知見

1. spec の精度 = クォータ効率

spec.md で具体的なパス、セクション構造、検証コマンドまで指定すると、Kimi の探索ステップが激減します。今回は6ステップで完走しました。曖昧な指示なら20〜30ステップは必要だったでしょう。

2. 既存ワークフローへの統合が鍵

新しいコマンドを覚えさせるより、既存の plan mode に乗せる方が導入障壁は圧倒的に低いです。ユーザーから見れば「承認画面の選択肢が1つ増えた」だけで、学習コストはほぼゼロです。

3. エージェント間の安全設計

Kimi の変更は必ず隔離ブランチ上で行います。マージは Claude レビュー後のみ。この安全設計があるから「とりあえず Kimi に投げる」が気軽にできます。

まとめ

初回ディスパッチは10秒・6ステップで成功しました。spec 変換というひと手間が、Kimi のクォータ効率を大幅に改善することも確認できました。

この構成の本質は「LLM 間で役割を分け、既存ワークフローの中にハンドオフを埋め込む」ことです。$19/月の Kimi Moderato と Claude Code の組み合わせで、個人開発でも十分実用的なマルチエージェント環境が作れます。

次のステップとしては、複数タスクの並列ディスパッチや、Kimi の実行結果を自動で PR にする仕組みを試してみたいと考えています。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up