はじめに
こんにちは、やしまです。
AIに関しては使うけど使い方にはあまり言及しない方向で行くと言っていたものの、時代の流れとしてまったく使わないという選択肢はないので、Cursorで使えるモデルをAIに比較してもらったものを自分で使うときの目安として載せてみようと思います。
前提
CursorでAPIキーを設定せずに使えるモデル(のうち使いそうなもの)をAIに比較してもらいます。
比較するAIには Claude Sonnet 4.6 を使いました。
それっぽく載せていますが、あくまで自分用の参考です。
Cursorで使えるAIモデル比較(2026年5月)
Anthropic — Claude
| モデル | コンテキスト | SWE-bench | 得意領域 | API単価(入力/出力 /1Mトークン) | 特徴・備考 |
|---|---|---|---|---|---|
| Claude Opus 4.7 ★ | 1M トークン | 64.3%(Pro) | 複雑な設計・大規模リファクタ・難バグ解析 | $5 / $25 | Cursor内部ベンチで13%向上。最もクレジット消費大 |
| Claude Sonnet 4.6 | 1M トークン | 〜80%(Verified) | 日常コーディング・コードレビュー・文章生成 | $3 / $15 | Opus比40%のコストで98%の品質。Proプランの主力 |
| Claude Haiku 4.5 | 200K トークン | — | 補完・分類・高速タスク処理 | $1 / $5 | 高スループット・低コスト用途向け |
OpenAI — GPT
| モデル | コンテキスト | SWE-bench | 得意領域 | API単価(入力/出力 /1Mトークン) | 特徴・備考 |
|---|---|---|---|---|---|
| GPT-5.5 ★ | 1M トークン | 88.7%(Verified) | 汎用コーディング・エージェントワークフロー・ターミナル | $5 / $30 | ターミナルベンチ82.7%トップ。最も安全な「デフォルト」 |
| GPT-5.4 | 1M トークン | 74.9%(Verified) | 汎用タスク・Canvas編集・マルチモーダル | $2.50 / $15 | すべての軸でバランス良好。エコシステム最大 |
| GPT-5.2-Codex | 1M トークン | — | 長期エージェントコーディング・CI連携 | $1.75 / $14 | Codex API専用。自律コード生成向け |
Google — Gemini
| モデル | コンテキスト | SWE-bench | 得意領域 | API単価(入力/出力 /1Mトークン) | 特徴・備考 |
|---|---|---|---|---|---|
| Gemini 3.1 Pro ★ | 1M トークン | 80.6%(Verified) | 全リポジトリ解析・長文脈・科学推論 | $2 / $12 | GPQA Diamond 94.3%(推論トップ)。スループット最高 |
| Gemini 2.5 Flash | 1M トークン | — | 高速タスク・マルチモーダル処理 | $0.30 / $2.50 | コスパ良好なマルチモーダルモデル |
| Gemini 2.5 Flash-Lite | 1M トークン | — | 分類・要約・ルーティング | 低コスト | 最低コストのGemini。大量処理向け |
DeepSeek・その他
| モデル | プロバイダー | コンテキスト | SWE-bench | 得意領域 | API単価(入力/出力 /1Mトークン) | 特徴・備考 |
|---|---|---|---|---|---|---|
| DeepSeek V4 Pro ★ | DeepSeek | 1M トークン | 72%(Verified) | 大量エージェント処理・長文脈推論・コスト削減 | $1.74 / $3.48 | フロンティア品質を約1/10コストで実現 |
| DeepSeek V4 Flash | DeepSeek | 1M トークン | — | 大量ルーティング・分類・高頻度クエリ | $0.14 / $0.28 | GPT-5.5比14倍安。キャッシュヒット時$0.0028/M |
| Kimi K2.6 | Moonshot AI | 1M トークン | 58.6%(Pro) | 高ボリューム本番コーディング・並列エージェント | $0.60 / $2.50 | Composer 2ベース。Opus 4.7の約1/8コスト |
| Cursor Composer 2 | Cursor | — | — | エージェント実行・内部オーケストレーション | $0.50 / $2.50 | Cursor 3.0デフォルト。Kimi K2.5ベースの自社モデル |
| Grok 4 | xAI | 1M トークン | 75%(Verified) | コーディング・リアルタイム情報・推論 | $2 / $15 | SWE-benchトップクラス。X/Twitterリアルタイムデータ連携 |
★ = 各プロバイダーの推奨主力モデル
API単価はトークンベース(Cursor経由では異なる場合あり)
出典: Cursor公式・各種ベンチマーク(2026年5月時点)
選び方のポイント
- 難しい設計・大規模リファクタ → Claude Opus 4.7(最高精度、クレジット消費大) Codersera
- 日常コーディングのデフォルト → GPT-5.5(汎用・全方位バランス)またはClaude Sonnet 4.6(コスパ最良) Codersera
- 全リポジトリの長文脈解析 → Gemini 3.1 Pro(1Mトークン+推論トップ)
- コスト削減・大量処理 → DeepSeek V4 Pro(フロンティア品質を約1/10コストで)またはDeepSeek V4 Flash Dasroot
個人的に使うモデル
個人的にはこれを使うだろうなというのも載せておきます。
- 普段のコーディングアシスト:Composer or Claude Sonnet
- 普段はこれにしておく感じになりそう
- そこそこの量を修正させるときに、いい感じに速いらしい
- 納得できない書き方の場合はClaude Sonnetにする感じ
- 変更が多そうなときのコーディングアシスト:Claude Opus
- なんかすごいって噂を聞いたので
- 細かいことを伝えるのではなく、ゴールを明確にする方がいいらしい
- 細かいことを伝えないとはいえ仕様はちゃんと伝える
- 書き方の詳細は不要ということ
- 簡単そうな修正のコーディングアシスト:Auto
- VOの詰め替えやわかりやすいリファクタなど
- 何でやってもよさそうなのは割安そうなAutoで
- 簡単そうなことを聞きたいとき:Auto or GPT-5.4 or Claude Sonnet
- 何でやってもよさそうなのは割安そうなAutoで
- 複数のモデルの意見を聞きたいときはちゃっぴーなども使ってみる
- ソースをある程度まとめて聞きたいとき
- 聞くだけで修正はしない
- ソース関連はClaude Sonnetを信頼しちゃっています
終わりに
勢いで作って貼ってみました。
自分で調べてやってみてうんぬんって流れじゃないですが、メモとしては優秀なものなのかなと自画自賛してみたり。
内容についての文句は受け付けていませんが、アドバイスや表に追加した方が良さそうな項目などは受け付けていますので気軽に言ってください。
ではでは。