【2025 年末版】ChatGPT 5.2 ( GPT-5.2 ) vs Gemini 3.0 ( Gemini 3 Pro ) を「コーディング性能」と「ベンチマーク」で比較する

Posted at 2025-12-12

TL;DR ( 要約 )

実務のバグ修正 / リポジトリ改修は GPT-5.2 が強め。SWE-bench Verified で 80% ( ベンダー公表 )。([OpenAI][1])
競技プログラミング寄り / 端末操作エージェントは Gemini 3 Pro が強め。LiveCodeBench Pro 2,439 Elo、Terminal-Bench 2.0 54.2%。([Google DeepMind][2])
長文コンテキストは両者とも巨大。GPT-5.2 は 400k / 128k、Gemini 3 Pro Preview は 1M / 64k。用途が「コードベース規模」と「ツール連携」なら選び分けが効きます。([OpenAI Platform][3])

Introduction

「結局どっちがプログラミングに強いの？」って、気になりますよね。ところが実際は、“コーディング” の中身 ( 新規実装 / 既存改修 / テスト生成 / 端末操作 ) が違うので、ベンチマークの見方を間違えると簡単にミスります。

この記事では、ChatGPT 5.2 ( API 名は GPT-5.2 ) と Gemini 3.0 ( 実質的に Gemini 3 Pro ) を、コード系ベンチマーク中心に比較し、最後に 再現できる比較スクリプトまで置きます。

Prerequisites ( 前提環境 )

対象モデル
- OpenAI: gpt-5.2 ( ChatGPT 側は “ChatGPT-5.2 Thinking” 相当 )([OpenAI][1])
- Google: gemini-3-pro-preview ( Gemini 3 Pro Preview )([Google AI for Developers][4])
記事内の数値は、主に ベンダー公式の “Performance / Pricing / Docs” から引用しています。([Google DeepMind][2])

Main Body ( 本論 )

結論: 「強いコーディング」が違う

同じ “コードが書ける” でも、ざっくり 2 系統あります。

( A ) 既存リポジトリを直す: issue から原因特定 → パッチ生成 → テストを通す
- 代表: SWE-bench Verified / SWE-Bench Pro([SWE-bench][5])
( B ) 新規でアルゴリズムを組む / 端末で作業する: 競プロ問題や、ターミナル操作を伴う自律実行
- 代表: LiveCodeBench Pro / Terminal-Bench 2.0([arXiv][6])

この差が、そのままモデル選定の差になります。

ベンチマークを 60 秒で理解する

SWE-bench Verified / SWE-Bench Pro

SWE-bench Verified: 実 GitHub issue を “修正できたか” を測る定番。人手でフィルタしたサブセットが Verified。([SWE-bench][5])
SWE-Bench Pro: Verified より言語が広く ( 複数言語 )、汚染耐性や産業的な多様性を強めた設計。([OpenAI][1])

LiveCodeBench Pro

競技プログラミング寄りの問題で、Elo レーティング形式で比較しやすいのが特徴。([arXiv][6])

Terminal-Bench 2.0

ターミナル上でのエージェント作業 ( 実行・修正・繰り返し ) を測る。([GitHub][7])

コーディング系 “主要スコア” 比較 ( 公式ソース優先 )

※ ここでは 各社が公表している代表値を並べます。ベンチマークはハーネス ( エージェント設計 / ツール / 反復回数 ) で数字が揺れるので、運用では “自分の環境で測る” のが最終的に勝ちです。

SWE-bench Verified ( agentic coding )
- GPT-5.2 Thinking: 80% ( not plotted として記載 )([OpenAI][1])
- Gemini 3 Pro: 76.2% ( single attempt )([Google DeepMind][2])
SWE-Bench Pro ( real-world software engineering )
- GPT-5.2 Thinking: 55.6%([OpenAI][1])
- Gemini 3 Pro: ( 公式表では同指標の記載なし / 少なくとも DeepMind の表には未掲載 )([Google DeepMind][2])
LiveCodeBench Pro ( competitive coding, Elo )
- Gemini 3 Pro: 2,439 Elo([Google DeepMind][2])
- GPT-5.2: ( 公式表で同指標の掲載なし )([OpenAI][1])
Terminal-Bench 2.0 ( agentic terminal coding )
- Gemini 3 Pro: 54.2%([Google DeepMind][2])
- GPT-5.2: ( 公式表で同指標の掲載なし )([OpenAI][1])

ここまでを見ると、「リポジトリ改修」寄りは GPT-5.2、「競プロ / 端末エージェント」寄りは Gemini 3 Proという形が見えます。

実務目線の選び方 ( プログラミング用途別 )

1) 既存プロダクトの改修・バグ修正 ( PR を出したい )

まずは SWE-bench 系の強さを重視。
GPT-5.2 は SWE-Bench Pro と SWE-bench Verified の両方を “コーディング” セクションで強調していて、実務改修文脈に寄せています。([OpenAI][1])

2) 新規実装・アルゴリズム生成 ( 競プロ・面接・パズル寄り )

LiveCodeBench Pro を素直に重視すると、Gemini 3 Pro が強い。([Google DeepMind][2])

3) “動かして直す” を回したい ( ターミナル操作エージェント )

Terminal-Bench 2.0 の観点では Gemini 3 Pro がリード。([Google DeepMind][2])
ただし OpenAI 側は Responses API でツールや compaction を前提にした設計を強めているので、あなたのエージェント基盤がどっちの SDK と相性が良いかも大きいです。([OpenAI Platform][8])

スペック比較 ( 開発で効くところだけ )

コンテキスト長 ( 長いコードベースを丸ごと食わせる )

GPT-5.2: 400,000 context window / 128,000 max output([OpenAI Platform][3])
Gemini 3 Pro Preview: 1,048,576 input / 65,536 output([Google AI for Developers][4])

価格 ( 大雑把な目安 )

GPT-5.2: $1.75 / 1M input、$14 / 1M output、cached input は $0.175([OpenAI Platform][3])
Gemini 3 Pro Preview: ( prompt <= 200k ) $1.25 / 1M input、$10 / 1M output。200k 超で単価が上がる。([Google AI for Developers][9])

再現できる最小比較: “同じプロンプトで両 API を叩く”

ベンチマークは参考にしつつ、最後は 自分のタスクで測るのがいちばん早いです。

OpenAI ( GPT-5.2 ) : Python

from openai import OpenAI

client = OpenAI()

resp = client.responses.create(
    model="gpt-5.2",
    input="You are a senior engineer. Fix the bug described below...\n\n<YOUR_TASK>",
    reasoning={"effort": "high"},  # none / medium / high / xhigh など
    text={"verbosity": "low"},
)

print(resp.output_text)

reasoning.effort や text.verbosity の指定方法は、公式ガイドに準拠しています。([OpenAI Platform][8])

Gemini ( Gemini 3 Pro ) : Python

from google import genai

client = genai.Client()

resp = client.models.generate_content(
    model="gemini-3-pro-preview",
    contents="You are a senior engineer. Fix the bug described below...\n\n<YOUR_TASK>",
)

print(resp.text)

API 形は “Generating content” のサンプルに準拠し、モデル名だけ差し替えています。([Google AI for Developers][10])

比較のコツ ( これだけ守るとブレにくい )

同じ入出力制約にする ( 例: 生成トークン上限、温度、ツール有無 )
評価をテストで自動化する ( pytest / go test / cargo test を回し、成功率で比較 )
“人間が欲しいアウトカム” を採点軸に入れる ( 例: 可読性、変更差分の小ささ、説明の過不足 )

Conclusion

GPT-5.2 は “既存コードを直して出荷” の文脈で強い ( SWE-Bench Pro 55.6%、SWE-bench Verified 80% の公表値 )。([OpenAI][1])
Gemini 3 Pro は “競プロ寄り” と “端末エージェント” の文脈で強い ( LiveCodeBench Pro 2,439 Elo、Terminal-Bench 2.0 54.2% )。([Google DeepMind][2])
とはいえ最終的には、あなたのリポジトリと CI で 同一条件の A/Bを回すのが最短ルートです。上のスクリプトを叩き台にしてみてください。

References

OpenAI “Introducing GPT-5.2” ( コーディング指標の公表 )
https://openai.com/index/introducing-gpt-5-2/

OpenAI “gpt-5.2 model page” ( コンテキスト長 / 料金 / cutoff )
https://platform.openai.com/docs/models/gpt-5.2

OpenAI “Using GPT-5.2” ( reasoning.effort など API パラメータ )
https://platform.openai.com/docs/guides/gpt-5-2

OpenAI “Responses API reference” ( 実装例 )
https://platform.openai.com/docs/api-reference/responses

Google DeepMind “Gemini 3 Pro” ( コード系ベンチマーク表 )
https://deepmind.google/models/gemini/pro/

Google “Gemini models” ( gemini-3-pro-preview / token limits / cutoff )
https://ai.google.dev/gemini-api/docs/models

Google “Gemini API pricing”
https://ai.google.dev/gemini-api/docs/pricing

LiveCodeBench Pro ( benchmark 論文 )
https://arxiv.org/abs/2403.07974

Terminal-Bench 2.0 ( benchmark リポジトリ )
https://github.com/TerminalBench/TerminalBench

SWE-Bench Pro ( 指標の説明 )
https://scale.com/blog/swe-bench-pro

SWE-bench ( Verified などのベンチマーク体系 )
https://www.swebench.com/

⚠️ 本記事に関する注意

本記事は執筆時点の情報に基づき作成しています。

AI 技術は発展が速いため、仕様や挙動が変更される可能性があります。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up