4
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【2025 年末版】ChatGPT 5.2 ( GPT-5.2 ) vs Gemini 3.0 ( Gemini 3 Pro ) を「コーディング性能」と「ベンチマーク」で比較する

Posted at

TL;DR ( 要約 )

  • 実務のバグ修正 / リポジトリ改修は GPT-5.2 が強め。SWE-bench Verified で 80% ( ベンダー公表 )。([OpenAI][1])
  • 競技プログラミング寄り / 端末操作エージェントは Gemini 3 Pro が強め。LiveCodeBench Pro 2,439 Elo、Terminal-Bench 2.0 54.2%。([Google DeepMind][2])
  • 長文コンテキストは両者とも巨大。GPT-5.2 は 400k / 128k、Gemini 3 Pro Preview は 1M / 64k。用途が「コードベース規模」と「ツール連携」なら選び分けが効きます。([OpenAI Platform][3])

Introduction

「結局どっちがプログラミングに強いの?」って、気になりますよね。ところが実際は、“コーディング” の中身 ( 新規実装 / 既存改修 / テスト生成 / 端末操作 ) が違うので、ベンチマークの見方を間違えると簡単にミスります。

この記事では、ChatGPT 5.2 ( API 名は GPT-5.2 ) と Gemini 3.0 ( 実質的に Gemini 3 Pro ) を、コード系ベンチマーク中心に比較し、最後に 再現できる比較スクリプトまで置きます。


Prerequisites ( 前提環境 )

  • 対象モデル

    • OpenAI: gpt-5.2 ( ChatGPT 側は “ChatGPT-5.2 Thinking” 相当 )([OpenAI][1])
    • Google: gemini-3-pro-preview ( Gemini 3 Pro Preview )([Google AI for Developers][4])
  • 記事内の数値は、主に ベンダー公式の “Performance / Pricing / Docs” から引用しています。([Google DeepMind][2])


Main Body ( 本論 )

結論: 「強いコーディング」が違う

同じ “コードが書ける” でも、ざっくり 2 系統あります。

  • ( A ) 既存リポジトリを直す: issue から原因特定 → パッチ生成 → テストを通す

    • 代表: SWE-bench Verified / SWE-Bench Pro([SWE-bench][5])
  • ( B ) 新規でアルゴリズムを組む / 端末で作業する: 競プロ問題や、ターミナル操作を伴う自律実行

    • 代表: LiveCodeBench Pro / Terminal-Bench 2.0([arXiv][6])

この差が、そのままモデル選定の差になります。


ベンチマークを 60 秒で理解する

SWE-bench Verified / SWE-Bench Pro

  • SWE-bench Verified: 実 GitHub issue を “修正できたか” を測る定番。人手でフィルタしたサブセットが Verified。([SWE-bench][5])
  • SWE-Bench Pro: Verified より言語が広く ( 複数言語 )、汚染耐性や産業的な多様性を強めた設計。([OpenAI][1])

LiveCodeBench Pro

  • 競技プログラミング寄りの問題で、Elo レーティング形式で比較しやすいのが特徴。([arXiv][6])

Terminal-Bench 2.0

  • ターミナル上でのエージェント作業 ( 実行・修正・繰り返し ) を測る。([GitHub][7])

コーディング系 “主要スコア” 比較 ( 公式ソース優先 )

※ ここでは 各社が公表している代表値を並べます。ベンチマークはハーネス ( エージェント設計 / ツール / 反復回数 ) で数字が揺れるので、運用では “自分の環境で測る” のが最終的に勝ちです。

  • SWE-bench Verified ( agentic coding )

    • GPT-5.2 Thinking: 80% ( not plotted として記載 )([OpenAI][1])
    • Gemini 3 Pro: 76.2% ( single attempt )([Google DeepMind][2])
  • SWE-Bench Pro ( real-world software engineering )

    • GPT-5.2 Thinking: 55.6%([OpenAI][1])
    • Gemini 3 Pro: ( 公式表では同指標の記載なし / 少なくとも DeepMind の表には未掲載 )([Google DeepMind][2])
  • LiveCodeBench Pro ( competitive coding, Elo )

    • Gemini 3 Pro: 2,439 Elo([Google DeepMind][2])
    • GPT-5.2: ( 公式表で同指標の掲載なし )([OpenAI][1])
  • Terminal-Bench 2.0 ( agentic terminal coding )

    • Gemini 3 Pro: 54.2%([Google DeepMind][2])
    • GPT-5.2: ( 公式表で同指標の掲載なし )([OpenAI][1])

ここまでを見ると、「リポジトリ改修」寄りは GPT-5.2、「競プロ / 端末エージェント」寄りは Gemini 3 Proという形が見えます。


実務目線の選び方 ( プログラミング用途別 )

1) 既存プロダクトの改修・バグ修正 ( PR を出したい )

  • まずは SWE-bench 系の強さを重視。
  • GPT-5.2 は SWE-Bench Pro と SWE-bench Verified の両方を “コーディング” セクションで強調していて、実務改修文脈に寄せています。([OpenAI][1])

2) 新規実装・アルゴリズム生成 ( 競プロ・面接・パズル寄り )

  • LiveCodeBench Pro を素直に重視すると、Gemini 3 Pro が強い。([Google DeepMind][2])

3) “動かして直す” を回したい ( ターミナル操作エージェント )

  • Terminal-Bench 2.0 の観点では Gemini 3 Pro がリード。([Google DeepMind][2])
  • ただし OpenAI 側は Responses API でツールや compaction を前提にした設計を強めているので、あなたのエージェント基盤がどっちの SDK と相性が良いかも大きいです。([OpenAI Platform][8])

スペック比較 ( 開発で効くところだけ )

コンテキスト長 ( 長いコードベースを丸ごと食わせる )

  • GPT-5.2: 400,000 context window / 128,000 max output([OpenAI Platform][3])
  • Gemini 3 Pro Preview: 1,048,576 input / 65,536 output([Google AI for Developers][4])

価格 ( 大雑把な目安 )

  • GPT-5.2: $1.75 / 1M input、$14 / 1M output、cached input は $0.175([OpenAI Platform][3])
  • Gemini 3 Pro Preview: ( prompt <= 200k ) $1.25 / 1M input、$10 / 1M output。200k 超で単価が上がる。([Google AI for Developers][9])

再現できる最小比較: “同じプロンプトで両 API を叩く”

ベンチマークは参考にしつつ、最後は 自分のタスクで測るのがいちばん早いです。

OpenAI ( GPT-5.2 ) : Python

from openai import OpenAI

client = OpenAI()

resp = client.responses.create(
    model="gpt-5.2",
    input="You are a senior engineer. Fix the bug described below...\n\n<YOUR_TASK>",
    reasoning={"effort": "high"},  # none / medium / high / xhigh など
    text={"verbosity": "low"},
)

print(resp.output_text)

reasoning.efforttext.verbosity の指定方法は、公式ガイドに準拠しています。([OpenAI Platform][8])

Gemini ( Gemini 3 Pro ) : Python

from google import genai

client = genai.Client()

resp = client.models.generate_content(
    model="gemini-3-pro-preview",
    contents="You are a senior engineer. Fix the bug described below...\n\n<YOUR_TASK>",
)

print(resp.text)

API 形は “Generating content” のサンプルに準拠し、モデル名だけ差し替えています。([Google AI for Developers][10])

比較のコツ ( これだけ守るとブレにくい )

  • 同じ入出力制約にする ( 例: 生成トークン上限、温度、ツール有無 )
  • 評価をテストで自動化する ( pytest / go test / cargo test を回し、成功率で比較 )
  • “人間が欲しいアウトカム” を採点軸に入れる ( 例: 可読性、変更差分の小ささ、説明の過不足 )

Conclusion

  • GPT-5.2 は “既存コードを直して出荷” の文脈で強い ( SWE-Bench Pro 55.6%、SWE-bench Verified 80% の公表値 )。([OpenAI][1])
  • Gemini 3 Pro は “競プロ寄り” と “端末エージェント” の文脈で強い ( LiveCodeBench Pro 2,439 Elo、Terminal-Bench 2.0 54.2% )。([Google DeepMind][2])
  • とはいえ最終的には、あなたのリポジトリと CI で 同一条件の A/Bを回すのが最短ルートです。上のスクリプトを叩き台にしてみてください。

References

OpenAI “Introducing GPT-5.2” ( コーディング指標の公表 )
https://openai.com/index/introducing-gpt-5-2/

OpenAI “gpt-5.2 model page” ( コンテキスト長 / 料金 / cutoff )
https://platform.openai.com/docs/models/gpt-5.2

OpenAI “Using GPT-5.2” ( reasoning.effort など API パラメータ )
https://platform.openai.com/docs/guides/gpt-5-2

OpenAI “Responses API reference” ( 実装例 )
https://platform.openai.com/docs/api-reference/responses

Google DeepMind “Gemini 3 Pro” ( コード系ベンチマーク表 )
https://deepmind.google/models/gemini/pro/

Google “Gemini models” ( gemini-3-pro-preview / token limits / cutoff )
https://ai.google.dev/gemini-api/docs/models

Google “Gemini API pricing”
https://ai.google.dev/gemini-api/docs/pricing

LiveCodeBench Pro ( benchmark 論文 )
https://arxiv.org/abs/2403.07974

Terminal-Bench 2.0 ( benchmark リポジトリ )
https://github.com/TerminalBench/TerminalBench

SWE-Bench Pro ( 指標の説明 )
https://scale.com/blog/swe-bench-pro

SWE-bench ( Verified などのベンチマーク体系 )
https://www.swebench.com/

⚠️ 本記事に関する注意

本記事は執筆時点の情報に基づき作成しています。

AI 技術は発展が速いため、仕様や挙動が変更される可能性があります。

4
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?