はじめに
以下の記事で調査しているついでにベンチマークを整理して並べました。
日本語訳にしたり表にしたりして整形しました。
数値でわかる:4.1 vs o3 vs GPT‑5 系
公開値ベース
gpt‑5‑chat‑latest
を 「without thinking(= 非リーズニング寄り)」 と位置づけ、OpenAIの紹介ページに掲載の公式グラフでスコアが公開されている点を明記します(以下に反映)。
ベンチマーク | GPT‑5 | GPT‑5 mini | GPT‑4.1 | gpt‑5‑chat‑latest* |
---|---|---|---|---|
マルチモーダル推論(MMMU) | 84.2% | 81.6% | 74.8% | — |
視覚推論(CharXiv reasoning, python enabled) | 81.1% | 75.5% | 56.7% | — |
指示追従(COLLIE) | 99.0% | 98.5% | 65.8% | — |
Function Calling(τ²‑bench telecom) | 96.7% | 74.1% | 34.0% | — |
ロングコンテキスト(OpenAI‑MRCR 2‑needle 128k) | 95.2% | 84.3% | 57.2% | — |
*注:上表は従来の比較(mini/4.1を含む)。
下に “with/without thinking(思考/非思考) 公式グラフの数値” を別表で掲載。
ポイント:軽量な GPT‑5 mini でも 4.1 を上回る項目が多数。
with / without thinking の公式グラフ値(抜粋)
with / without thinking について
GPT5は、現在
- Fast (without thinking)
- Thinking (with)
の二つに分かれており、内容により自動・手動で切り替えることができます。
HealthBench — 現実的な健康会話
モデル | With thinking | Without thinking |
---|---|---|
GPT‑5 | 67.2% | 54.3% |
OpenAI o3 | 59.8% | — |
GPT‑4o | — | 32.0% |
HealthBench Hard — 難易度の高い健康会話
モデル | With thinking | Without thinking |
---|---|---|
GPT‑5 | 46.2% | 25.5% |
OpenAI o3 | 31.6% | — |
GPT‑4o | — | 0.0% |
SWE-bench Verified(n=477)— ソフトウェアエンジニアリング、pass@1
モデル | With thinking | Without thinking |
---|---|---|
GPT‑5 | 74.9% | 52.8% |
OpenAI o3 | 69.1% | ー |
GPT‑4o | — | 30.8% |
Aider Polyglot — 多言語コード編集、pass@2
モデル | With thinking | Without thinking |
---|---|---|
GPT‑5 | 88.0% | 26.7% |
OpenAI o3 | 79.6% | — |
GPT‑4o | — | 25.8% |
AIME 2025 — 競技数学、pass@1
モデル(設定) | With thinking | Without thinking |
---|---|---|
GPT‑5 pro (python) | 100.0% | N/A |
GPT‑5 pro (no tools) | 96.7% | N/A |
GPT‑5 (python) | 99.6% | 71.0% |
GPT‑5 (no tools) | 94.6% | 61.9% |
OpenAI o3 (python) | — | 98.4% |
OpenAI o3 (no tools) | — | 88.9% |
GPT‑4o (python) | — | 42.1% |
まとめ:without thinking(= gpt‑5‑chat‑latest (GPT5Fast)相当)でも多くのベンチで GPT‑4o を上回る。一方で、難問やコード編集・数理では with thinking による大幅な上振れが見られ、
reasoning_effort
を上げる価値が明確。
とりあえず、GPT5を使うのは間違いないです!
引用元
本記事は以下公式のOpenAIの記事を整形したものです。