この記事の目的
本記事では GPT-5.2 を中心に、GPT-5.1 / GPT-5 / GPT-4.1 / Gemini 3.0 Pro を、
前半では物語風の読み物として、後半では 「同一指標・同一条件で比較可能なベンチマーク」に限定して整理し、作ってみました。
特に以下の2点を重視します。
- GPT系列が世代を追って「どのように賢くなってきたのか」という遍歴
- GPT-5.2 と Gemini 3.0 Pro の“実力対決”が何がすごいのか
「性能差」もそうだが、「時間間隔の崩れ」こそが、この物語の異常さ
GPT-4.1からGPT-5.2までの流れ(発表日と間隔)まず、全体像を発表日とその間の日数で整理します。
- GPT-4.1 発表:2025-04-14
- GPT-5 発表:2025-08-07(GPT-4.1 から 115日後)
- GPT-5.1 発表:2025-11-12(GPT-5 から 97日後)
- Gemini 3.0 発表(Google)2025-11-19(GPT-5.1 から 7日後)
- GPT-5.2 発表:2025-12-11(Gemini 3.0 から 22日後/GPT-5.1 から 29日後)
こうして見ると、
- GPT-4.1 → GPT-5:約4か月
- GPT-5 → GPT-5.1:約3か月
という、これまでとしては比較的落ち着いた(全然爆速)進化の流れのあとに、
- GPT-5.1 → Gemini 3:7日
7日後のGemini3.0の登場と性能により、焦ったOpenAIは
- Gemini 3 → GPT-5.2:22日
という、明らかに異常なスピードでリリースされたことが分かります。
この「時間間隔の崩れ」が、2025年後半の生成AI競争を
一気におもしろくした最大の要因だと、僕は感じています。

GPT5.1の直後にGemini 3が来て、追い付かれ、すぐ追い抜き返した激動の1か月
ここからは、一人の開発者としてこの期間を見ていた僕の視点で書きます。
2025年後半の生成AI界隈は、性能比較というよりも、
「毎週、空気が変わる」ような異様な熱量がありました。
YoutubeやXを眺めながら、
「あ、今週はこのモデルが一番って言われてるな」
そんな感覚が、数週間単位で入れ替わっていきました。
① GPT-5.1(2025-11-12):妥当な進化だと思われたGPT-5.1
GPT-5.1が出たとき、正直に言うと、僕は安心しました。
「順当に強くなっている」「ちゃんと完成度を上げてきた」
――そんな印象だったからです。
実際に触ってみると、GPT-5でも本当に賢かくなったんですが
- たまに思考がブレる感じ
- 指示の解釈が微妙にズレる感じ
がまた減ったと感じました。
「ああ、これは“調整が効いた強さ”だな」
と感じたのを覚えています。
この時点では、
「しばらくは OpenAI の天下が続くだろう」
そう思っていた開発者は、僕だけではなかったはずです。
② その1週間後、Gemini 3.0(2025-11-19):空気が変わった
Gemini 3 の発表を最初に見たとき、正直なところ、
僕はそこまで大きな事件だとは思っていませんでした。
そのため、この時点では
「ああ、また一つアップデートが来たんだな」
そのくらいの感覚です。
ところが、数日経つにつれて、空気が少しずつ変わってきました。
僕自身が細かい検証を一つ一つ追っていたわけではないではありませんでしたが、
YouTube、海外メディア、技術ブログ、X──
いろいろな場所から断片的に評判が流れてきて、
「Gemini 3、めちゃくちゃいいらしい」 「GPT使うのやめました」
そんな声を、あちこちで耳にするようになりました。
それらが数日かけて積み重なり、
「あれ、これ思っていたより、かなり強いのでは?」
という感覚に変わっていった、という方が正確です。
Gemini 3は複数のAIベンチマークでトップの座を奪い、消費者市場でのシェアを拡大させ始め、ChatGPTのトラフィック減少やGoogleへの市場シェア流出への懸念が高まり始めました。
このあたりで僕は
「これはGoogleが本格的にOpenAIに追いつき(追い抜き)始めたのか・・?」
と感じ始めた一方で、経験上、OpenAIが追いつめられたときは、、必ずなにかおもしろい一手を打ってくる印象があったため、
「OpenAI は、これにどう対応してくるのだろう?」
を楽しみにしていました。
③"コード・レッド宣言" GPT-5.2(2025-12-11):わずか3週間でリリース
その後の約3週間は、メディアでは
「Gemini 3 優勢か?」
といった見出しがよりいっそう目立つようになり、 同時に OpenAI 社内の動きについても、少しずつ情報が出始めます。
各種メディアなどの報道によると、 OpenAI 社内では危機感が急速に高まり、 サム・アルトマン CEO は 12 月初旬に社内メモで「コード・レッド」を宣言をしたようです。

これは、Google(Gemini)の攻勢に本格的に対抗するため、
- ChatGPT のコア体験の改善を最優先
- 広告導入などの新規施策は後回し
とする、かなり強い意思表示だったようです。
最高製品責任者(CPO)のフィジー・シモ氏も、
コードレッドによって 特定分野に社内リソースを一気に集結させた と説明しています。
その結果としてたった3週間で出てきたのが GPT-5.2 です。
前バージョンの GPT-5.1 をリリースしてから、
わずか 1 か月足らず という異例のスピードでの新モデル投入でした。
OpenAI は、
「とにかくコアである推論能力をアップさせ、主導権を取り戻すことを優先する」
という判断を下し、GPT-5.2 のリリースに踏み切ったようです。
実際、以下で比較しますが、AIME 2025 の 100% や SWE-bench Verified の 80% という数字を見ると、
「GPT5.1以上に、推論能力がかなり強化されている」
と感じざるを得ませんでした。一方で、僕自身、毎日その限界付近の質問を実務でしているわけではないです。ただ、まだLLMの限界を感じることもある中で、これらの能力の向上を体感できるのがとても楽しみです。
時系列で整理すると
- GPT-5.1 → Gemini 3:1週間後
- Gemini 3 → GPT-5.2:22日
この 1か月間は、生成 AI の競争が、 もはや年単位ではなく、週単位で動いている ことを はっきり実感し、1か月で二転三転と状況が変わるのを目の当たりに期間でした。
ここからは、実際のベンチマークの比較です!
比較に使われたベンチマーク指標(簡単な説明)
今回は、それぞれのモデルで使われたテストで同じ指標を比較します。
SWE-bench Verified
- 実ソフトウェアのバグ修正タスクをどれだけ正しく解決できるかを測る指標です
- 単なるコード生成ではなく、「リポジトリ理解・修正・テスト通過」まで含みます
- 実務コーディング能力の代表的な指標です
GPQA Diamond
- 博士課程レベルの科学・数学・論理推論問題です
- 暗記ではなく、複数ステップの推論力が問われます
- "Diamond" は特に難易度が高いサブセットです
AIME 2025
- 米国の超難関数学コンテスト(高校〜オリンピック級)です
- 数学的厳密性と長い推論チェーンが必要です
- 100%達成は「人間トップ層相当」を意味します
※ MMMU / GDPval などは条件差が大きいため、本記事の主比較からは除外しています
同一指標での総合比較表
| モデル | SWE-bench Verified | GPQA Diamond | AIME 2025 |
|---|---|---|---|
| GPT-4.1 | 54.6% | 66.3% | – |
| GPT-5 | 72.8% | 85.7% | 94.6% |
| GPT-5.1 | 76.3% | 88.1% | 94.0% |
| GPT-5.2 | 80.0% | 92.4% | 100.0% |
| Gemini 3.0 Pro | 76.2% | 91.9% | 95.0% |
※ すべて「同一評価条件・no tools もしくは明示条件」での公開値のみを使用しています
GPT系列の“賢さの遍歴”を見る
GPT-4.1 → GPT-5
- SWE-bench が 54.6 → 72.8 と大幅に向上しました
- 「コードを書ける」モデルから、「コードを直せる」モデルへ進化しました
- 推論系(GPQA)も約 +20pt 向上しています
GPT-5 → GPT-5.1
- 大きなジャンプではありませんが、安定性と再現性が向上しました
- 数学・科学推論が着実に底上げされています
GPT-5.1 → GPT-5.2
- 質的な変化が起きた世代です
- AIME 2025 が 100% に到達しました
- SWE-bench 80% 突破は「人間上位エンジニア帯」を示します
- 推論系では Gemini 3.0 Pro を明確に上回っています
このため、GPT-5.2 は単なる改良版ではなく、推論特化世代と位置づけられます。
まとめ
- 比較では「同一指標・同一条件」が重要です
- GPT系列は世代ごとに「推論の深さ」が明確に進化しています
- GPT-5.2 は、数学・科学では人類トップ層、実務コーディングでは現実的に最強クラスです
- Gemini 3.0 Pro との対決では、理論面は拮抗し、実装面では GPT-5.2 が優位に立っています
補足 Gemini 2.5 との差は?(なぜ本記事では主役にしていないのか)
ここで一応補足で、「Gemini 2.5 とは何が違うのか?」 という点です。
結論から言うと、 Gemini 2.5 と Gemini 3.0 の差は“性能の差”というよりも、“競争の位相の差” だと、僕は感じています。
Gemini 2.5:着実な改良だが、覇権を揺るがす存在ではなかった
Gemini 2.5 は、
- Gemini 2 系列の延長線上の改良
- 推論・安定性・マルチモーダルの底上げ
といった点で、確実に良いモデルでした。
ただ、当時の空気感としては、
「GPT-4.1 / GPT-5 と比べて、決定的に勢力図が変わる感じではない」
という受け止め方が多かった印象です。
実際、
- GPT 系列のリリース直後に“並んだ”と語られることは少なく
- ベンチマークでも分野限定の強さという扱いでした
そのため、OpenAI 側が緊急対応を迫られるような状況にはなりませんでした。
Gemini 3.0:はじめて「OpenAIの直後に並んだ」世代
一方で Gemini 3.0 は、明らかに立ち位置が違います。
- GPT-5.1 の わずか 7 日後 に登場
- 推論・マルチモーダル・エージェント的タスクをまとめて押さえた
- 評判が数日かけて“面”として広がった
この結果、
「GPT-5.1 と普通に並べて語られる」
という、これまでにはほとんどなかった状況が生まれました。
僕の感覚では、
- Gemini 2.5:
- OpenAIの背中は見えてきたが、追い抜くところまではいかない
- Gemini 3.0:
- OpenAIと同じリングに上がってきた
この違いが、決定的でした。
なぜ Gemini 2.5 は本記事の主比較から外しているのか
理由はシンプルで、
- GPT-5.1 / 5.2 と 同時代・同条件での直接比較にならない
- 本記事のテーマである「短期決戦」「コードレッド」を引き起こした当事者ではない
からです。
本記事が描いているのは、
「Gemini 3.0 が初めて OpenAI を本気にさせた瞬間」
なので、その文脈では Gemini 2.5 は 重要な通過点ではあるが、主役ではない という位置づけになります。
