はじめに
2026年5月18日、CursorはAIコーディングモデル「Composer 2.5」を発表しました。
注目すべきは、Claude Opus 4.7とほぼ同等のベンチマーク性能を、約1/10のコストで実現している点です。SWE-bench Multilingualで79.8%(Opus 4.7は80.5%)を達成しながら、タスクあたりコストは$0.07と、Opus 4.7の$4.10の60分の1以下です。
この記事では、Composer 2.5の技術的な仕組み、ベンチマーク、料金体系を解説します。
この記事で学べること
- Composer 2.5のベースモデルと独自学習手法
- 主要ベンチマークでの他モデルとの比較
- 料金体系と利用可能な環境
対象読者
- AIコーディングツールのコスト・性能を重視する開発者
- Cursorを日常的に利用しているエンジニア
- AIコーディングエージェントの技術的な仕組みに関心がある方
TL;DR
- Composer 2.5はMoonshot AIのKimi K2.5をベースに、Cursorが独自のpost-trainingを施した自社モデル
- Coding Agent Indexで62点(3位)。Claude Opus 4.7(66点)には及ばないが、コストは60〜90%削減
- タスクあたりコストはStandardで$0.07、Fastで$0.44(Opus 4.7は$4.10)
- 外部APIは非公開。Cursor IDE・CLIのみで利用可能
ベースモデル: Kimi K2.5
Composer 2.5の基盤は、Moonshot AIがオープンソースで公開しているKimi K2.5です。
| 項目 | 仕様 |
|---|---|
| アーキテクチャ | Mixture of Experts(MoE) |
| 総パラメータ数 | 1兆(1 trillion) |
| 推論時アクティブパラメータ | 約32B |
Kimi K2.5はCursorにとって初めてではなく、前モデルのComposer 2もKimi K2.5をベースにしていました。Composer 2.5では計算コストの85%を独自のpost-trainingパイプラインに投入し、より大幅な性能改善を実現しています。
Cursorによる独自学習手法
公式ブログ(Introducing Composer 2.5)では、3つの主要な手法が説明されています。
1. Targeted RL with Textual Feedback
従来の強化学習では、ロールアウト全体の最終報酬のみを用いてモデルを訓練します。Composer 2.5では、問題が発生した具体的な意思決定ポイントにテキストヒントを挿入し、その箇所でteacher-student蒸留(KLロス)を適用します。
例えば「利用可能なツールリスト」の参照が必要な場面でモデルが誤った選択をした場合、その箇所のコンテキストにヒントを埋め込んでから再学習させます。
2. 実コードベース由来の合成タスク
Composer 2と比べて25倍の合成タスクでトレーニングしています。代表的な手法が「Feature Deletion」です。
- 既存コードベースから特定の機能を削除し、テストスイートを残す
- モデルにその機能を再実装させる
- テストが通ったかどうかを検証可能な報酬として利用
注目すべき点として、高度なreward hackingも観察されたとのことです。Pythonの__pycache__を逆ユーティリズ化したり、JavaのバイトコードをデコンパイルしてRE(リバースエンジニアリング)するケースが報告されています。
3. Sharded Muon & Dual Mesh HSDP
最適化アルゴリズムにはSharded Muonを採用しています。Newton-Schulz直交化をアテンションヘッドおよびエキスパート単位で適用し、非同期通信でネットワーク転送とコンピュートをオーバーラップさせることで効率的な分散学習を実現しています。
ベンチマーク比較
Artificial Analysisが公開しているCoding Agent Indexの結果です。
Coding Agent Index(2026年5月時点)
| モデル | スコア | タスクコスト |
|---|---|---|
| Claude Opus 4.7 (max) | 66(1位) | $4.10 |
| GPT-5.5 (xhigh) | 65(2位) | $4.82 |
| Composer 2.5 (standard) | 62(3位) | $0.07 |
| Composer 2.5 (Fast) | 62(3位) | $0.44 |
SWE-bench Multilingual
| モデル | スコア |
|---|---|
| Claude Opus 4.7 | 80.5% |
| Composer 2.5 | 79.8% |
SWE-bench MultilingualはGitHubイシューを解決するタスクで、多言語コードベースへの対応も評価します。両モデルはほぼ並んでいます。
Composer 2→2.5の改善幅
| ベンチマーク | Composer 2 | Composer 2.5 | 改善 |
|---|---|---|---|
| SWE-bench-Pro-Hard-AA | 12% | 47% | +35pt |
| Terminal-Bench v2 | 64% | 66% | +2pt |
| SWE-Atlas-QnA | 69% | 72% | +3pt |
| SWE-bench Multilingual | 73.7% | 79.8% | +6.1pt |
SWE-bench-Pro-Hard-AAは難易度の高いタスクに特化したベンチマークで、前バージョンから35ポイントの大幅改善が見られます。
実行速度
| モデル | 平均実行時間 |
|---|---|
| Composer 2.5 (standard) | 9.3分 |
| Composer 2.5 (Fast) | 6.7分 |
FastはStandardより約30%高速で、全エージェント中3位の速さです。
料金体系
Composer 2.5には2つのティアがあります。
| ティア | 入力 | 出力 | 主な用途 |
|---|---|---|---|
| Standard | $0.50/Mトークン | $2.50/Mトークン | バッチ処理・非同期タスク |
| Fast(デフォルト) | $3.00/Mトークン | $15.00/Mトークン | インタラクティブなコーディング |
参考として、Claude Opus 4.7の料金は入力$5.00/M、出力$25.00/Mトークンです(Anthropic API Pricing)。
Fastティアでも Opus 4.7の約1/1.5〜2のコストにとどまり、タスク単位では$0.44対$4.10と大きな差があります。これはComposer 2.5がコーディング特化の最適化により、トークン消費量自体が少ないためです。
利用可能な環境
Composer 2.5は現時点で外部APIを公開していません。以下の環境のみで利用可能です。
- Cursor IDE(GUI)
- Cursor CLI
サードパーティのスクリプトやCI/CDパイプラインから直接呼び出すことはできません。Cursorのサブスクリプション(Hobby・Pro・Business)が必要です。
今後の開発計画
公式ブログによると、SpaceXAIとの協力のもと、Colossus 2(22万GPU)でComposer 2.5比10倍の計算量を使ったより大規模なモデルの開発が進行中とのことです。
まとめ
- Composer 2.5はKimi K2.5ベース — Moonshot AIのオープンソース1兆パラメータMoEを使用
- 85%のcompute budgetを独自post-trainingに投入 — Targeted RL・大規模合成タスク・Sharded Muonで性能を大幅向上
- SWE-bench Multilingualで79.8% — Opus 4.7(80.5%)と実質同等の水準
- タスクあたり$0.07(standard) — Opus 4.7の60分の1のコスト
- Cursor IDE/CLIのみ対応 — 外部API利用は現時点で不可
コストを重視するチームや、多言語コードベースへの対応が重要な開発環境では、Composer 2.5は有力な選択肢です。ただし、スコアでは依然Opus 4.7に4ポイントの差があり、難易度の高いタスクでは差が出る可能性があります。公式のCoding Agent Indexとベンチマーク詳細で最新情報を確認することをお勧めします。
参考リンク
- Introducing Composer 2.5 · Cursor — 公式ブログ・学習手法の詳細
- Cursor's Composer 2.5: third on the Coding Agent Index and ~10-60x lower cost than rivals — Artificial Analysisベンチマーク
- Cursor Composer 2.5 Matches Claude Opus 4.7 on Coding Benchmarks at One-Tenth Cost — TechTimes