GitHub Copilotで利用可能なモデルとプレミアムリクエストの消費量は公式のドキュメントに記載がありますが、選択肢が多いのでどのモデルを使うべきなのかパッと見では判断できません。プレミアムリクエストの消費量の多さ=性能の高さとは限りませんし…
というわけで公式のドキュメントに追加する形でSWE-bench(Verified)のスコアとコンテキストウィンドウの長さを調査しました。
各社ポジショントークなどもあるとは思いますので、参考程度までに。
Model | 消費 | SWE-bench | コンテキストウィンドウ |
---|---|---|---|
GPT-4.1 | 1 | 54.3% | 1M |
GPT-4o | 1 | 30.7% | 128K |
GPT-4.5 | 50 | 38.0% | 128K |
Claude 3.5 Sonnet | 1 | 50.8% | 200K |
Claude 3.7 Sonnet | 1 | 62.3% | 200K |
Claude 3.7 Sonnet Thinking | 1.25 | 記載なし | 200K |
Claude Sonnet 4 | 1 | 72.7% | 200K |
Claude Opus 4 | 10 | 72.5% | 200K |
Gemini 2.0 Flash | 0.25 | 51.8% | 1M |
Gemini 2.5 Pro | 1 | 63.2% | 1M |
o1 | 10 | 48.9% | 200K |
o3 | 5 | 69.1% | 200K |
o3-mini | 0.33 | 42.4% | 200K |
o4-mini | 0.33 | 68.1% | 200K |
個人的にはClaude 4系がやはり性能が良い印象があります。
プレミアムリクエストの消費量とのバランスで、雑多なタスクはo4-mini、少し込み入ったタスクはSonnet 4、ロングコンテキストが必要なタスクはGemini 2.5 Pro、といった感じで併用していこうかなと考えています。