1
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

GitHub Copilotで利用可能なモデルのプレミアムリクエスト消費量と性能の一覧

Posted at

GitHub Copilotで利用可能なモデルとプレミアムリクエストの消費量は公式のドキュメントに記載がありますが、選択肢が多いのでどのモデルを使うべきなのかパッと見では判断できません。プレミアムリクエストの消費量の多さ=性能の高さとは限りませんし…
というわけで公式のドキュメントに追加する形でSWE-bench(Verified)のスコアとコンテキストウィンドウの長さを調査しました。
各社ポジショントークなどもあるとは思いますので、参考程度までに。

Model 消費 SWE-bench コンテキストウィンドウ
GPT-4.1 1 54.3% 1M
GPT-4o 1 30.7% 128K
GPT-4.5 50 38.0% 128K
Claude 3.5 Sonnet 1 50.8% 200K
Claude 3.7 Sonnet 1 62.3% 200K
Claude 3.7 Sonnet Thinking 1.25 記載なし 200K
Claude Sonnet 4 1 72.7% 200K
Claude Opus 4 10 72.5% 200K
Gemini 2.0 Flash 0.25 51.8% 1M
Gemini 2.5 Pro 1 63.2% 1M
o1 10 48.9% 200K
o3 5 69.1% 200K
o3-mini 0.33 42.4% 200K
o4-mini 0.33 68.1% 200K

個人的にはClaude 4系がやはり性能が良い印象があります。
プレミアムリクエストの消費量とのバランスで、雑多なタスクはo4-mini、少し込み入ったタスクはSonnet 4、ロングコンテキストが必要なタスクはGemini 2.5 Pro、といった感じで併用していこうかなと考えています。

1
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?