はじめに
株式会社QualiArtsでUnityエンジニアをしている25新卒の水溜です。
最近は生成AIが飛躍的な進化を見せ、ゲーム開発においても生成AIを活用する機会が多くなってきました。私もその波に乗り遅れないよう、ちょっと前からCursorを使用した開発を行っています。
今回はそんなCursorをUnityでのゲーム開発に使用するに当たってどのモデルをいつ使うのがいいのか、それぞれのモデルはどのくらいコストがかかるのかをまとめてみました。
私の経験による憶測で書かれている内容もありますので参考程度に閲覧していただけますと幸いです。
※あくまで、Unityにおけるゲーム開発でCursorを使用してみての執筆になります。
そして、この記事は QualiArts アドベントカレンダー2025 の 12 日目です。
私の記事の他にも様々な記事が挙がっていますのでぜひご覧ください。
各モデルの特徴
これから記述する各Modelの説明は以下のとおりです
- リリース: 公式発表に基づく情報
- 特徴: 公式発表と筆者の経験・憶測に基づく情報
- Unity開発での使いどころ: 筆者の経験・憶測に基づく内容
- 価格: 公式発表に基づく情報
Composer 1(Cursor独自モデル)
リリース: 2025年10月(Cursor 2.0と同時)
特徴
- Cursor専用に開発されたMoE(Mixture-of-Experts)1モデル
- 同等の性能を持つモデルと比較して4倍高速
- 大規模コードベースでのセマンティック検索に対応
- 30秒以内でほとんどのタスクを完了
Unity開発での使いどころ
- QAからのバグチケット
- 基本的な不具合修正
- 少し複雑な実装
- 基本的なリファクタ
- テストコード生成
- 処理検索
- コードのセルフレビュー
基本的にはComposer 1での開発になるかなと思います。
不具合の原因調査や修正、質問・検索、機能の実装に関してはよくComposer 1を使用しています。
また、AIが出力したコードで自分の知らない文法や書き方が合ったときに質問するのにも役立てています。
なにより、早くて性能も良いので助かります。
AIによる並列作業を行う社員さんも多いですが、Composer 1はその隙があまりないほどの早さを感じます。
ですが、会話のラリーが長引いたり、大量の作業を任せると思考の途中で止まって、回答が返ってこなくなるときがたまにあります(私だけ?)。
並列作業→自分は2つUnityを立ち上げて、片方のAIにタスクを投げて回答が返ってくるまでの間で、もう片方のAIに別のタスクを渡して作業する工程を繰り返しています
Gemini 2.5 Flash
リリース: 2025年6月(安定版)
特徴
- Googleの高速・高コスパモデル
- Thinkingモード(拡張思考)2をデフォルトで搭載
- 100万トークンのコンテキストウィンドウ
- マルチモーダル対応(テキスト、画像、動画、音声)
Unity開発での使いどころ
- Composer 1に投げるよりも軽めのタスク
- 軽微な不具合修正
- 軽微で狭い範囲でのリファクタ
価格: $0.30/100万入力トークン、$2.50/100万出力トークン
こちらはComposer 1を使用できるならあまり使うことはないかなとは個人的に思っています。
ですが、Free版でComposer 1を使用できない場合はこのモデル(と、次に紹介するHaiku 4.5)を基本的に使うのが良さそうだなという印象です。
Claude Haiku 4.5
リリース: 2025年10月
特徴
- Thinkingモード(拡張思考)に対応
- Sonnet 4と同等の性能を1/3のコスト、2倍以上の速度で実現
- SWE-bench Verified3で73.3%(トップクラス)
Unity開発での使いどころ
- Composer 1とほぼ同じことはできるイメージ
価格: $1/100万入力トークン、$5/100万出力トークン
(Sonnet 4の約1/3)
最近このモデルの存在を知って少しずつ使うようになりました。
Sonnet 4と同等の性能でありながらSonnet 4よりも低コストで使用することができますし、Composer 1よりは少しだけ性能の面で劣っているものの、コスト面を考えるとComposer 1よりも低コストで扱えるのでコスパがいいです。
Free版の場合は、Gemini 2.5 Flashに投げたタスクの回答が怪しかったらこっちを使うという流れでも良さそうです。
Pro版の場合でもコストをより重視するならHaiku 4.5を日常的に使い、回答が怪しかったらComposer 1に切り替えるでも良さそうです。
GPT-5.1
リリース: 2025年11月
特徴
- Thinkingモード(拡張思考)をデフォルトで搭載
- SWE-bench Verifiedで74.9%(GPT-5)、76.3%(GPT-5.1)
- OpenAIの最新フラッグシップモデル
- より自然な会話、適応的な推論
- ハルシネーション(誤情報)がo3比で約80%減少
- reasoning_effortパラメータで推論の深さを調整可能(CursorではHigh、Lowで変わる)
Unity開発での使いどころ
Composer 1でできることに加えて
- 新しいゲームシステムの設計と実装
- 複雑な処理の実装
- 既存コードの改善
価格: $1.25/100万入力トークン、$10/100万出力トークン
なんとなく聞いたことあるからという理由で一時期ずっと使っていました。
性能はいい気がしますが回答までの時間が遅い印象があります。
また、後述しますが、GPT-5.1にはHighやFastといった単語がつくものがあります。
初心者の私はそれを見て「すごく良さそうだし早そう」という理由でずっとGPT-5.1 High Fastを使用していました。その結果、一気にトークンを消費してしまい、すぐにLimitが来てしまったことがあります。
以降、モデルを適切に切り替えることを意識するようになりました...。
Claude Sonnet 4.5
リリース: 2025年9月
特徴
- Anthropicが「世界最高のコーディングモデル」と称する
- SWE-bench Verifiedで77.2%(トップクラス)
- 最大30時間の長時間タスクに対応
- コードの品質と可読性が高い
Unity開発での使いどころ
GPT-5.1でできることに加えて
- パフォーマンス最適化の相談
- 既存コードの大幅な改善
価格: $3/100万入力トークン、$15/100万出力トークン
最近複雑で難しいタスクや原因特定が難しいタスクにおいてSonnet 4.5を使うことがあります。
GPTより返ってくるまでの速度が早いためか、使い心地がいいなという印象です。
また、Timelineのパラメータや構造、Prefabの中身についても少し精度高く読み取ってくれる印象があります。
後述するPlanモードと組み合わせて使ったらかなり精度高く問題を解決してくれるので早く、正確に問題解決をしたいときに使っています。
ただ、今回調べていてSonnet 4.5や以降説明するモデルは普段の業務で使用するには少しオーバースペックな気がしたので、私は基本的にはHaiku 4.5かComposer 1を使うくらいにとどめておこうかなと思いました。
Gemini 3 Pro
リリース: 2025年11月
特徴
- Googleの最新フラッグシップモデル、LMArenaで史上初の1501 Eloを達成
- SWE-bench Verifiedで76.2%(Claude Sonnet 4.5の77.2%に匹敵)
- Thinkingモード(拡張思考)をデフォルトで搭載
- Humanity's Last Exam4で37.5%(ツールなし、GPT-5 Proの31.64%を上回る)
- 100万トークンのコンテキストウィンドウ(Claude系の5倍)
- 「Vibe Coding」:自然言語から完全なアプリを生成
- マルチモーダル対応(テキスト、画像、音声、動画)
Unity開発での使いどころ
まだ使用したことがないので以下は完全な憶測です
Claude Sonnet 4.5でできることに加えて
- 大規模コードベースの一括理解・分析
- 複雑なゲームシステムの設計相談
- 長大なドキュメントを参照しながらの実装
- 複雑な数学的処理やアルゴリズム設計
価格
≤200Kトークン: $2/100万入力トークン、$12/100万出力トークン
>200Kトークン: $4/100万入力トークン、$18/100万出力トークン
まだ使用したことがないです。
この記事を書いたことでSonnet 4.5よりもコストが低そうなので今後難しいタスクに直面した時はSonnet 4.5ではなくGemini 3 Proを使ってみてSonnet 4.5と比べてみようかなと思いました。
Claude Opus 4.5
リリース: 2025年11月
特徴
- Anthropicの最上位モデル
- SWE-bench Verifiedで80.9%(トップクラス)
- 深い推論と長期的なタスク実行に優れる
- 「effort」パラメータで思考の深さを調整可能
- Sonnet 4.5より最大65%少ないトークンで同等の結果
Unity開発での使いどころ:
こちらもGemini 3 Proと同様、使用したことがないので完全な憶測です
Gemini 3 Proでできることに加えて
- プロジェクト全体の構造見直し
- 複数ファイルにまたがる大規模リファクタ
- 複雑な数学的処理やアルゴリズム設計
- 高度な設計や実装
価格: $5/100万入力トークン、$25/100万出力トークン
こちらも使用経験なし。
どうやら賢さがレベチらしいです。
おそらくですが、私はしばらくこのモデルを使う機会はないのかなあと思います。
かなり高いレベルで物事を進めていくときに使うんだろうなあって印象です。
でも一回くらい試しに使ってみようかなと思いました。
GPTやGeminiについている、ProとかFastとかって何?
CursorでGPTやGeminiを選択する際、同じモデルでも「Gemini3Pro」や「GPT-5.1-High」など語尾になにかついているものがあります。私自身も違いがいまいちわからなかったため、調べて簡単にまとめてみました。
GPT-5のサイズバリエーション
GPT-5には4つのサイズがあり、性能とコストのトレードオフで選択できます。
| モデル | 入力/100万トークン | 出力/100万トークン | 特徴 |
|---|---|---|---|
| GPT-5 Pro | $15 | $120 | 最高性能、深い推論専用 |
| GPT-5 | $1.25 | $10 | フルサイズ、標準版 |
| GPT-5 mini | $0.25 | $2 | 軽量版、明確なタスク向け |
| GPT-5 nano | $0.05 | $0.40 | 最軽量、分類・要約など単純タスク向け |
GPT-5/5.1のreasoning_effort(推論レベル)
GPT-5/5.1ではreasoning_effortパラメータで推論の深さを調整できます。Cursorでは「high」「low」などの名前で表示されます。
| レベル | 速度 | 向いているタスク |
|---|---|---|
| low | 速い | 一般的なコーディング |
| 標準 | 普通 | 通常の開発作業 |
| high | 遅い | 複雑なバグ調査、設計、深い推論が必要なとき |
※推論レベルが高いほど、モデルが内部で「考える」時間が長くなり、より深い分析が可能になりますが、その分レスポンスは遅くなります。また、レベルを上げるとその分価格も高くなっていきます。
Cursorでの「fast」バリエーション
Cursorでは同じモデルに「fast」がついたバリエーションがあります。
| バリエーション | 説明 |
|---|---|
| GPT-5 | 標準版 |
| GPT-5 (fast) | 優先キューで処理される高速版 |
| GPT-5-high-fast | 深い推論+優先キュー |
「fast」の意味
- Cursorのサーバーで優先的に処理される
- 混雑時でも高速なレスポンスが期待できる
- ただしコストは約2倍になることがある
※レスポンスは早いがコストは多くかかるので解決や実装を急いでいるここぞの場面で使うのがおすすめかもです。
Geminiのバリエーション
Geminiは性能・コスト・速度のバランスで複数のモデルが用意されています。
| モデル | 入力/100万トークン | 出力/100万トークン | 特徴 |
|---|---|---|---|
| Gemini 2.5 Flash | $0.30 | $2.50 | 高コスパ |
| Gemini 2.5 Pro | $1.25 | $10 | 安定版、100万トークンコンテキスト |
| Gemini 3 Pro | $2 | $12 | 最新・最高性能、プレビュー版 |
API料金のコスト比較(概算)
⚠️以下の価格は各社APIの公式価格です。Cursorを通じて使用する場合、実際のコストは異なる場合がありますので注意が必要です。
| モデル | 入力/100万トークン | 出力/100万トークン | 備考 |
|---|---|---|---|
| Gemini 2.5 Flash | $0.30 | $2.50 | かなり低コストで使える |
| Claude Haiku 4.5 | $1 | $5 | Composer 1より低コストで少し劣るくらいなのでコスパ良し |
| Composer 1 | $1.25 | $10 | Pro版以上で使用可能。基本はこれを使うで良さそう |
| GPT-5.1 | $1.25 | $10 | 中間層のモデルとしてオススメ |
| Gemini 3 Pro | $2 | $12 | 最新、100万トークンコンテキスト |
| Claude Sonnet 4.5 | $3 | $15 | 高品質 |
| Claude Opus 4.5 | $5 | $25 | 最高性能 |
・Cursor Pro ($20/月) 以上を使っている場合、Composer 1が一番コスパがいいんじゃないかなと思います。Free版の場合はGemini 2.5 FlashとClaude Haiku 4.5を基本的に使うことでコストを抑えながらコスパよく開発できます。
・コスト重視なら Gemini 2.5 Flash、Claude Haiku 4.5 も選択肢にあがってきそうです。
・大規模コードベースを扱うなら Gemini 系の100万トークンコンテキスト、Opusが強力に見えます。
Cursorで扱う上では
| コスト感 | モデル | 備考 |
|---|---|---|
| 低 | Gemini 2.5 Flash | - |
| 中 | Composer 1、Claude Haiku 4.5、GPT-5.1 | GPTはhigh、low、fastで料金が変わる |
| 高 | Claude Sonnet 4.5、Gemini 3 Pro | - |
| 最高 | Claude Opus 4.5 | ここぞの場面がおすすめ |
という温度感になりそうです。
すでに述べているように、Cursorを通じて使用する場合は実際のコストは異なる場合がありますのでここでは温度感で表させていただきます。
結論:タスク別おすすめモデル
これまでの情報を踏まえての結論をお見せします。
| タスク | おすすめモデル | 理由 |
|---|---|---|
| 軽微な不具合修正、QAチケット消化 | Gemini 2.5 Flash | かなり低コスト |
| 日常的なコーディング、不具合修正 | Composer 1 / Claude Haiku 4.5 | Claude Haiku 4.5はSonnet 4の1/3コストで同等品質 |
| 複雑な新規実装・設計 | Claude Sonnet 4.5 / GPT-5.1 | 柔軟な対応力・コード品質 |
| 大規模リファクタ・長時間タスク | Claude Opus 4.5 | 深い推論・持続力 |
| 大規模コードベースの分析・長大なドキュメント参照を要するタスク | Gemini 3 Pro / Gemini 2.5 Pro | 100万トークンの大容量コンテキスト |
モデルごとの特徴でも触れたとおり、
普段のタスクはComposer 1(またはGemini 2.5 Flash、Claude Haiku 4.5)、
少し複雑な、時間がかかりそうなタスクはGPT-5.1、
より精度を求める、大規模なタスクを行うのならGemini 3 Pro、Claude Sonnet 4.5、Claude Opus 4.5
を使用することになりそうです。
※Auto(モデル自動選択)について
Cursorにはタスクの複雑さや状況に応じて、Cursorが最適なモデルを自動選択してくれる機能があります。
メリット:
・モデル選びに迷わなくていい
・サーバー障害時に自動で別モデルに切り替え
デメリット:
・どのモデルが使われているか分かりにくい
・途中でモデルが切り替わることがある
・コスト管理がしづらい
⚠️ 個人的にはAutoモードはあまりおすすめしません。現時点ではAuto使用時に何のモデルが使われているか分からないため、出力の品質や特性を把握しづらいです。
Cursorのモードについて
Cursorにはタスクの質問や相談をする際に、モードを選ぶことができます。
モードはAgentモード、Planモード、Askモードの3種類があり、画像の左下の「∞ Agent」と書かれているところを押すと切り替えることができます(または、shift + tabで切り替えられます)。
モデルによってはPlanモードが使えなかったりしますので注意が必要です。
Agent モード(デフォルト・最も自律的)
公式の説明
Agentモードは複雑なコーディングタスク向けのデフォルトモード。AIが自律的にコードベースを探索し、複数ファイルの編集、ターミナルコマンドの実行、エラーの自動修正を行う。
向いている場面
- 仕様が明確なタスク
- 複数ファイルにまたがる実装
- テストの実行と結果に基づく修正
- 定型的な実装の自動化
個人的な感想
・意図しないコード削除や変更が発生する場合がある
Plan モード(計画→実行の2段階)
公式の説明
Plan モードは実装前に詳細な計画を作成するモード。2025年10月にリリースされ、Cursor 2.0以降で利用可能。AIがコードベースを調査し、明確な質問を投げかけ、計画をMarkdownファイルとして保存できる。
主な機能
- コードベースを自動調査し、関連ファイルを特定
- 要件の明確化のための質問を提示
- 計画をMarkdownファイルとして保存・編集可能
- 計画確定後に実装を開始
- Mermaidダイアグラムのインライン生成に対応
向いている場面
- 新機能の設計フェーズ
- 複雑なリファクタリングの前
- 「どうやって作る?」から始めたいとき
- チームで計画を共有したいとき
個人的な感想
- 以下の画像のように質問に答える形式で進められる(インゲームのパフォーマンスに関しての相談をしたいと投げた)
- 実装内容を事前に確認できる
- 「いきなり変なコード書かれた...」を防げる
- 計画をチームで共有・レビューできる
Ask モード(読み取り専用・相談用)
公式の説明:
Ask モードは「読み取り専用」モード。ファイルやコンテキストを読む能力はあるが、コードの変更は一切行わない。コードベースの理解や、変更前の計画立てに最適。
主な機能:
- コードベースの検索・参照
- 質問への回答(コード変更なし)
- ファイル内容の説明・分析
- 実装方針の相談
向いている場面:
- 新しいコードベースの理解
- 実装前の相談・懸念点の洗い出し
- 「これってどう思う?」系の質問
個人的な感想:
・コードを読むだけで編集がされないので安心
・懸念点がある場合はAgentで実装する前に、まずAskで方針を確認するのが良い
ちなみに、どのモードにおいても、Cursor上で任意のコードを範囲選択し、cmd(windowsの場合はCtrl) + Lをするとチャットに簡単にコピーでき、任意のコードをAIに読ませることができます。
問題の原因になっていそうなコードや注力して読んでほしいコードがわかっている場合は範囲選択して先程のショートカットを実行してみてください。これをすることで回答の精度が上がる気がします。
さいごに
生成AIが発展してどこの会社もAIを取り入れた開発を強く推進しています。
そんな世の中ですが、私は2点ほど今の自分に対して危惧していることがあります。
1. 自分の実力以上のアウトプットが出る
新卒の私は、複雑で難しいタスクにおいて性能の良いモデルを扱うと、私の実力以上のアウトプットが行われる時があります。
そうなるとそのアウトプットに対して私が理解できない、責任を持てない状況が起きてしまいます。
私は、比較的規模の大きいチームに属して開発をしていて、多くのユーザーへ提供するゲームを開発しています。その立場でありながら、「それはAIが作ったので自分は管理できません」といった状況を生み出してしまうことは開発物のメンテナンス性を下げることや、私の成長を妨げる(=会社として人材が育たない)ことに繋がってしまいます。
2. 先輩に質問する機会が以前より減った
以前はすこし考えてわからなかったら先輩(トレーナー)に相談する流れが主でしたが、最近はわからなかったらとりあえずAIに聞くことが私の中で主流になっています。先輩の時間を奪わないという観点や、自分で物事をさばけるという観点では良く聞こえますが、コミュニケーションの機会が失われたり、問題に対する相互理解ができなかったり、先輩エンジニアのノウハウ、設計思想を引き出せないといった面も抱えていると思っています。
「生成AIで効率良く」を意識するのはいいですが、このような問題が生まれてきているのは事実ですので今一度向き合い方を考えて、生成AIと上手く付き合いながら開発を進めていきたいなとこの記事を書きながらも思いました。
話は少しそれましたが、本題に戻ると、何も考えないでモデルを使用するのと、しっかり考えてモデルを使い分けるとでは作業効率やコストがかなり変わって来ることが今回の調べでわかりました。
今回執筆してみて、私もモデルのことや使い分け方を学ぶことができたのでこれからの開発に活かしていきたいです。
改めての注意にはなりますが、私の経験による憶測で書かれている内容もありますし、モデルとモードの組み合わせやタスクの内容によってかかるコストは変わってくるかなと思いますので、参考程度にお願いします。
今回の記事がUnity開発でCursorを使用している方の一助になれば幸いです。
もし皆さんの好みのモデルがあればぜひコメント欄で教えて下さい。
ここまで読んでいただき、ありがとうございました!
最終更新: 2025年12月
参考・引用元
Cursor公式
- Introducing Cursor 2.0 and Composer - Composer 1の発表
- Composer: Building a fast frontier model with RL - Composer 1の技術詳細
- Cursor Pricing - 料金プラン
Anthropic公式(Claude)
- Introducing Claude Sonnet 4.5 - Sonnet 4.5の発表
- Introducing Claude Opus 4.5 - Opus 4.5の発表
- Introducing Claude Haiku 4.5 - Haiku 4.5の発表
OpenAI公式
- Introducing GPT-5 - GPT-5の発表
- GPT-5.1: A smarter, more conversational ChatGPT - GPT-5.1の発表
- Introducing GPT-5.1 for developers - GPT-5.1 APIの発表
Google公式(Gemini)
- Gemini 2.5 Flash - Gemini 2.5 Flashの詳細
- Gemini Developer API pricing - Gemini APIの価格
比較・解説記事
- Choosing the Right Model in Cursor – Frontend Masters Blog - モデル選択ガイド
- Comparing Top AI Models in Cursor Editor (May 2025) - Medium - モデル比較検証
- Cursor Composer 1 vs Claude 4.5 Sonnet - Composio - Composer vs Sonnet比較
ベンチマーク関連
- SWE-bench公式リーダーボード: https://www.swebench.com/
- LMArena Leaderboard: https://lmarena.ai/
GPT-5.1関連
- GPT-5.1 System Card Addendum - GPT-5.1の安全性評価
Gemini 3関連
-
MoE(Mixture-of-Experts): 複数の専門モデル(エキスパート)を組み合わせ、タスクに応じて最適なものを選択する仕組み。高性能と効率性を両立できる。 ↩
-
Thinkingモード(拡張思考): 回答前にモデルが内部で段階的に思考するモード。
複雑な問題に対してより深い推論が可能になるが、レスポンス時間とトークン消費が増加する。Cursorではコーディング品質向上のため、多くのモデル(GPT-5.1やGeminiなど)でデフォルト有効になっている。(脳マークが付いているものがThinkingモードOnのもの)。コストを抑えるなら同じModelでもThinkingモードがOffのもの(脳マークがついていないもの)が好ましい。
↩ -
SWE-bench Verified: 実際のGitHubのIssueを解決できるかを測定するベンチマーク。実務に近いコーディング能力の指標として広く使われている。(公式サイト) ↩
-
Humanity's Last Exam(HLE): Center for AI SafetyとScale AIが共同開発した、人類の知識の最前線を測定するベンチマーク。世界中の専門家から集めた2,500問以上の超難問で構成され、数学・物理・生物・人文科学など100以上の分野をカバー。既存のベンチマーク(MMLUなど)が90%以上の正答率で飽和状態になったことを受け、「AIにとって最後の学術試験」として設計された。(公式サイト) ↩



