TL;DR ( 要約 )
- 実務のバグ修正 / リポジトリ改修は GPT-5.2 が強め。SWE-bench Verified で 80% ( ベンダー公表 )。([OpenAI][1])
- 競技プログラミング寄り / 端末操作エージェントは Gemini 3 Pro が強め。LiveCodeBench Pro 2,439 Elo、Terminal-Bench 2.0 54.2%。([Google DeepMind][2])
- 長文コンテキストは両者とも巨大。GPT-5.2 は 400k / 128k、Gemini 3 Pro Preview は 1M / 64k。用途が「コードベース規模」と「ツール連携」なら選び分けが効きます。([OpenAI Platform][3])
Introduction
「結局どっちがプログラミングに強いの?」って、気になりますよね。ところが実際は、“コーディング” の中身 ( 新規実装 / 既存改修 / テスト生成 / 端末操作 ) が違うので、ベンチマークの見方を間違えると簡単にミスります。
この記事では、ChatGPT 5.2 ( API 名は GPT-5.2 ) と Gemini 3.0 ( 実質的に Gemini 3 Pro ) を、コード系ベンチマーク中心に比較し、最後に 再現できる比較スクリプトまで置きます。
Prerequisites ( 前提環境 )
-
対象モデル
- OpenAI:
gpt-5.2( ChatGPT 側は “ChatGPT-5.2 Thinking” 相当 )([OpenAI][1]) - Google:
gemini-3-pro-preview( Gemini 3 Pro Preview )([Google AI for Developers][4])
- OpenAI:
-
記事内の数値は、主に ベンダー公式の “Performance / Pricing / Docs” から引用しています。([Google DeepMind][2])
Main Body ( 本論 )
結論: 「強いコーディング」が違う
同じ “コードが書ける” でも、ざっくり 2 系統あります。
-
( A ) 既存リポジトリを直す: issue から原因特定 → パッチ生成 → テストを通す
- 代表: SWE-bench Verified / SWE-Bench Pro([SWE-bench][5])
-
( B ) 新規でアルゴリズムを組む / 端末で作業する: 競プロ問題や、ターミナル操作を伴う自律実行
- 代表: LiveCodeBench Pro / Terminal-Bench 2.0([arXiv][6])
この差が、そのままモデル選定の差になります。
ベンチマークを 60 秒で理解する
SWE-bench Verified / SWE-Bench Pro
- SWE-bench Verified: 実 GitHub issue を “修正できたか” を測る定番。人手でフィルタしたサブセットが Verified。([SWE-bench][5])
- SWE-Bench Pro: Verified より言語が広く ( 複数言語 )、汚染耐性や産業的な多様性を強めた設計。([OpenAI][1])
LiveCodeBench Pro
- 競技プログラミング寄りの問題で、Elo レーティング形式で比較しやすいのが特徴。([arXiv][6])
Terminal-Bench 2.0
- ターミナル上でのエージェント作業 ( 実行・修正・繰り返し ) を測る。([GitHub][7])
コーディング系 “主要スコア” 比較 ( 公式ソース優先 )
※ ここでは 各社が公表している代表値を並べます。ベンチマークはハーネス ( エージェント設計 / ツール / 反復回数 ) で数字が揺れるので、運用では “自分の環境で測る” のが最終的に勝ちです。
-
SWE-bench Verified ( agentic coding )
- GPT-5.2 Thinking: 80% ( not plotted として記載 )([OpenAI][1])
- Gemini 3 Pro: 76.2% ( single attempt )([Google DeepMind][2])
-
SWE-Bench Pro ( real-world software engineering )
- GPT-5.2 Thinking: 55.6%([OpenAI][1])
- Gemini 3 Pro: ( 公式表では同指標の記載なし / 少なくとも DeepMind の表には未掲載 )([Google DeepMind][2])
-
LiveCodeBench Pro ( competitive coding, Elo )
- Gemini 3 Pro: 2,439 Elo([Google DeepMind][2])
- GPT-5.2: ( 公式表で同指標の掲載なし )([OpenAI][1])
-
Terminal-Bench 2.0 ( agentic terminal coding )
- Gemini 3 Pro: 54.2%([Google DeepMind][2])
- GPT-5.2: ( 公式表で同指標の掲載なし )([OpenAI][1])
ここまでを見ると、「リポジトリ改修」寄りは GPT-5.2、「競プロ / 端末エージェント」寄りは Gemini 3 Proという形が見えます。
実務目線の選び方 ( プログラミング用途別 )
1) 既存プロダクトの改修・バグ修正 ( PR を出したい )
- まずは SWE-bench 系の強さを重視。
- GPT-5.2 は SWE-Bench Pro と SWE-bench Verified の両方を “コーディング” セクションで強調していて、実務改修文脈に寄せています。([OpenAI][1])
2) 新規実装・アルゴリズム生成 ( 競プロ・面接・パズル寄り )
- LiveCodeBench Pro を素直に重視すると、Gemini 3 Pro が強い。([Google DeepMind][2])
3) “動かして直す” を回したい ( ターミナル操作エージェント )
- Terminal-Bench 2.0 の観点では Gemini 3 Pro がリード。([Google DeepMind][2])
- ただし OpenAI 側は Responses API でツールや compaction を前提にした設計を強めているので、あなたのエージェント基盤がどっちの SDK と相性が良いかも大きいです。([OpenAI Platform][8])
スペック比較 ( 開発で効くところだけ )
コンテキスト長 ( 長いコードベースを丸ごと食わせる )
- GPT-5.2: 400,000 context window / 128,000 max output([OpenAI Platform][3])
- Gemini 3 Pro Preview: 1,048,576 input / 65,536 output([Google AI for Developers][4])
価格 ( 大雑把な目安 )
- GPT-5.2: $1.75 / 1M input、$14 / 1M output、cached input は $0.175([OpenAI Platform][3])
- Gemini 3 Pro Preview: ( prompt <= 200k ) $1.25 / 1M input、$10 / 1M output。200k 超で単価が上がる。([Google AI for Developers][9])
再現できる最小比較: “同じプロンプトで両 API を叩く”
ベンチマークは参考にしつつ、最後は 自分のタスクで測るのがいちばん早いです。
OpenAI ( GPT-5.2 ) : Python
from openai import OpenAI
client = OpenAI()
resp = client.responses.create(
model="gpt-5.2",
input="You are a senior engineer. Fix the bug described below...\n\n<YOUR_TASK>",
reasoning={"effort": "high"}, # none / medium / high / xhigh など
text={"verbosity": "low"},
)
print(resp.output_text)
reasoning.effort や text.verbosity の指定方法は、公式ガイドに準拠しています。([OpenAI Platform][8])
Gemini ( Gemini 3 Pro ) : Python
from google import genai
client = genai.Client()
resp = client.models.generate_content(
model="gemini-3-pro-preview",
contents="You are a senior engineer. Fix the bug described below...\n\n<YOUR_TASK>",
)
print(resp.text)
API 形は “Generating content” のサンプルに準拠し、モデル名だけ差し替えています。([Google AI for Developers][10])
比較のコツ ( これだけ守るとブレにくい )
- 同じ入出力制約にする ( 例: 生成トークン上限、温度、ツール有無 )
-
評価をテストで自動化する (
pytest/go test/cargo testを回し、成功率で比較 ) - “人間が欲しいアウトカム” を採点軸に入れる ( 例: 可読性、変更差分の小ささ、説明の過不足 )
Conclusion
- GPT-5.2 は “既存コードを直して出荷” の文脈で強い ( SWE-Bench Pro 55.6%、SWE-bench Verified 80% の公表値 )。([OpenAI][1])
- Gemini 3 Pro は “競プロ寄り” と “端末エージェント” の文脈で強い ( LiveCodeBench Pro 2,439 Elo、Terminal-Bench 2.0 54.2% )。([Google DeepMind][2])
- とはいえ最終的には、あなたのリポジトリと CI で 同一条件の A/Bを回すのが最短ルートです。上のスクリプトを叩き台にしてみてください。
References
OpenAI “Introducing GPT-5.2” ( コーディング指標の公表 )
https://openai.com/index/introducing-gpt-5-2/
OpenAI “gpt-5.2 model page” ( コンテキスト長 / 料金 / cutoff )
https://platform.openai.com/docs/models/gpt-5.2
OpenAI “Using GPT-5.2” ( reasoning.effort など API パラメータ )
https://platform.openai.com/docs/guides/gpt-5-2
OpenAI “Responses API reference” ( 実装例 )
https://platform.openai.com/docs/api-reference/responses
Google DeepMind “Gemini 3 Pro” ( コード系ベンチマーク表 )
https://deepmind.google/models/gemini/pro/
Google “Gemini models” ( gemini-3-pro-preview / token limits / cutoff )
https://ai.google.dev/gemini-api/docs/models
Google “Gemini API pricing”
https://ai.google.dev/gemini-api/docs/pricing
LiveCodeBench Pro ( benchmark 論文 )
https://arxiv.org/abs/2403.07974
Terminal-Bench 2.0 ( benchmark リポジトリ )
https://github.com/TerminalBench/TerminalBench
SWE-Bench Pro ( 指標の説明 )
https://scale.com/blog/swe-bench-pro
SWE-bench ( Verified などのベンチマーク体系 )
https://www.swebench.com/
⚠️ 本記事に関する注意
本記事は執筆時点の情報に基づき作成しています。
AI 技術は発展が速いため、仕様や挙動が変更される可能性があります。