Cursor Composer 2.5入門 — Opus 4.7と同等性能を1/10コストで実現する仕組み

Last updated at 2026-06-16Posted at 2026-05-26

はじめに

2026年5月18日、CursorはAIコーディングモデル「Composer 2.5」を発表しました。

注目すべきは、Claude Opus 4.7とほぼ同等のベンチマーク性能を、約1/10のコストで実現している 点です。SWE-bench Multilingualで79.8%（Opus 4.7は80.5%）を達成しながら、タスクあたりコストは$0.07と、Opus 4.7の$4.10の60分の1以下です。

この記事では、Composer 2.5の技術的な仕組み、ベンチマーク、料金体系を解説します。

この記事で学べること

Composer 2.5のベースモデルと独自学習手法
主要ベンチマークでの他モデルとの比較
料金体系と利用可能な環境

対象読者

AIコーディングツールのコスト・性能を重視する開発者
Cursorを日常的に利用しているエンジニア
AIコーディングエージェントの技術的な仕組みに関心がある方

TL;DR

Composer 2.5はMoonshot AIのKimi K2.5をベースに、Cursorが独自のpost-trainingを施した自社モデル
Coding Agent Indexで62点（3位）。Claude Opus 4.7（66点）には及ばないが、コストは60〜90%削減
タスクあたりコストはStandardで$0.07、Fastで$0.44（Opus 4.7は$4.10）
外部APIは非公開。Cursor IDE・CLIのみで利用可能

ベースモデル: Kimi K2.5

Composer 2.5の基盤は、Moonshot AIがオープンソースで公開しているKimi K2.5です。

項目	仕様
アーキテクチャ	Mixture of Experts（MoE）
総パラメータ数	1兆（1 trillion）
推論時アクティブパラメータ	約32B

Kimi K2.5はCursorにとって初めてではなく、前モデルのComposer 2もKimi K2.5をベースにしていました。Composer 2.5では 計算コストの85%を独自のpost-trainingパイプラインに投入 し、より大幅な性能改善を実現しています。

Cursorによる独自学習手法

公式ブログ（Introducing Composer 2.5）では、3つの主要な手法が説明されています。

1. Targeted RL with Textual Feedback

従来の強化学習では、ロールアウト全体の最終報酬のみを用いてモデルを訓練します。Composer 2.5では、問題が発生した具体的な意思決定ポイントにテキストヒントを挿入し、その箇所でteacher-student蒸留（KLロス）を適用します。

例えば「利用可能なツールリスト」の参照が必要な場面でモデルが誤った選択をした場合、その箇所のコンテキストにヒントを埋め込んでから再学習させます。

2. 実コードベース由来の合成タスク

Composer 2と比べて 25倍の合成タスク でトレーニングしています。代表的な手法が「Feature Deletion」です。

既存コードベースから特定の機能を削除し、テストスイートを残す
モデルにその機能を再実装させる
テストが通ったかどうかを検証可能な報酬として利用

注目すべき点として、高度なreward hackingも観察されたとのことです。Pythonの __pycache__ を逆ユーティリズ化したり、JavaのバイトコードをデコンパイルしてRE（リバースエンジニアリング）するケースが報告されています。

3. Sharded Muon & Dual Mesh HSDP

最適化アルゴリズムにはSharded Muonを採用しています。Newton-Schulz直交化をアテンションヘッドおよびエキスパート単位で適用し、非同期通信でネットワーク転送とコンピュートをオーバーラップさせることで効率的な分散学習を実現しています。

ベンチマーク比較

Artificial Analysisが公開しているCoding Agent Indexの結果です。

Coding Agent Index（2026年5月時点）

モデル	スコア	タスクコスト
Claude Opus 4.7 (max)	66（1位）	$4.10
GPT-5.5 (xhigh)	65（2位）	$4.82
Composer 2.5 (standard)	62（3位）	$0.07
Composer 2.5 (Fast)	62（3位）	$0.44

SWE-bench Multilingual

モデル	スコア
Claude Opus 4.7	80.5%
Composer 2.5	79.8%

SWE-bench MultilingualはGitHubイシューを解決するタスクで、多言語コードベースへの対応も評価します。両モデルはほぼ並んでいます。

Composer 2→2.5の改善幅

ベンチマーク	Composer 2	Composer 2.5	改善
SWE-bench-Pro-Hard-AA	12%	47%	+35pt
Terminal-Bench v2	64%	66%	+2pt
SWE-Atlas-QnA	69%	72%	+3pt
SWE-bench Multilingual	73.7%	79.8%	+6.1pt

SWE-bench-Pro-Hard-AAは難易度の高いタスクに特化したベンチマークで、前バージョンから35ポイントの大幅改善が見られます。

実行速度

モデル	平均実行時間
Composer 2.5 (standard)	9.3分
Composer 2.5 (Fast)	6.7分

FastはStandardより約30%高速で、全エージェント中3位の速さです。

料金体系

Composer 2.5には2つのティアがあります。

ティア	入力	出力	主な用途
Standard	$0.50/Mトークン	$2.50/Mトークン	バッチ処理・非同期タスク
Fast（デフォルト）	$3.00/Mトークン	$15.00/Mトークン	インタラクティブなコーディング

参考として、Claude Opus 4.7の料金は入力$5.00/M、出力$25.00/Mトークンです（Anthropic API Pricing）。

Fastティアでも Opus 4.7の約1/1.5〜2のコスト にとどまり、タスク単位では$0.44対$4.10と大きな差があります。これはComposer 2.5がコーディング特化の最適化により、トークン消費量自体が少ないためです。

利用可能な環境

Composer 2.5は現時点で 外部APIを公開していません。以下の環境のみで利用可能です。

Cursor IDE（GUI）
Cursor CLI

サードパーティのスクリプトやCI/CDパイプラインから直接呼び出すことはできません。Cursorのサブスクリプション（Hobby・Pro・Business）が必要です。

今後の開発計画

公式ブログによると、SpaceXAIとの協力のもと、Colossus 2（22万GPU）で Composer 2.5比10倍の計算量 を使ったより大規模なモデルの開発が進行中とのことです。

まとめ

Composer 2.5はKimi K2.5ベース — Moonshot AIのオープンソース1兆パラメータMoEを使用
85%のcompute budgetを独自post-trainingに投入 — Targeted RL・大規模合成タスク・Sharded Muonで性能を大幅向上
SWE-bench Multilingualで79.8% — Opus 4.7（80.5%）と実質同等の水準
タスクあたり$0.07（standard） — Opus 4.7の60分の1のコスト
Cursor IDE/CLIのみ対応 — 外部API利用は現時点で不可

コストを重視するチームや、多言語コードベースへの対応が重要な開発環境では、Composer 2.5は有力な選択肢です。ただし、スコアでは依然Opus 4.7に4ポイントの差があり、難易度の高いタスクでは差が出る可能性があります。公式のCoding Agent Indexとベンチマーク詳細で最新情報を確認することをお勧めします。

参考リンク

Introducing Composer 2.5 · Cursor — 公式ブログ・学習手法の詳細
Cursor's Composer 2.5: third on the Coding Agent Index and ~10-60x lower cost than rivals — Artificial Analysisベンチマーク
Cursor Composer 2.5 Matches Claude Opus 4.7 on Coding Benchmarks at One-Tenth Cost — TechTimes

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up