GitHub Copilotで利用可能なモデルのプレミアムリクエスト消費量と性能の一覧

Posted at 2025-05-30

GitHub Copilotで利用可能なモデルとプレミアムリクエストの消費量は公式のドキュメントに記載がありますが、選択肢が多いのでどのモデルを使うべきなのかパッと見では判断できません。プレミアムリクエストの消費量の多さ＝性能の高さとは限りませんし…
というわけで公式のドキュメントに追加する形でSWE-bench(Verified)のスコアとコンテキストウィンドウの長さを調査しました。
各社ポジショントークなどもあるとは思いますので、参考程度までに。

Model	消費	SWE-bench	コンテキストウィンドウ
GPT-4.1	1	54.3%	1M
GPT-4o	1	30.7%	128K
GPT-4.5	50	38.0%	128K
Claude 3.5 Sonnet	1	50.8%	200K
Claude 3.7 Sonnet	1	62.3%	200K
Claude 3.7 Sonnet Thinking	1.25	記載なし	200K
Claude Sonnet 4	1	72.7%	200K
Claude Opus 4	10	72.5%	200K
Gemini 2.0 Flash	0.25	51.8%	1M
Gemini 2.5 Pro	1	63.2%	1M
o1	10	48.9%	200K
o3	5	69.1%	200K
o3-mini	0.33	42.4%	200K
o4-mini	0.33	68.1%	200K

個人的にはClaude 4系がやはり性能が良い印象があります。
プレミアムリクエストの消費量とのバランスで、雑多なタスクはo4-mini、少し込み入ったタスクはSonnet 4、ロングコンテキストが必要なタスクはGemini 2.5 Pro、といった感じで併用していこうかなと考えています。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up