はじめに
対象:
- reasoningモデルってどういうこと?考える時間が長くて使いにくい!
- 新しいパラメータ増えてるな、reasoning_effort、verbosityって何??
- それぞれのモデルの頭の良さの数値が知りたい
という人向け
実際に製品にGPTを使っている方、ユーザー体験を損なわないために、非機能要件として応答速度が厳しく設定(数秒)されている方多いのではないでしょうか。
GPT5は普通に実装すると、自分の実装するRAGでは、応答速度が4.1では5~10秒程度だったのに対し、GPT5では、1分かかってしまいました。
OpenAI公式をみてもこれからのスタンダードになっていきそうなGPT5。
今回は、なぜ遅くなるのか。応答スピードを速くするにはという観点と推論力という観点で調べました。
GPT5とほかGPTシリーズを数値で比較した記事はこちら
全てのモデル(o3,4.1,4o,etc..)が集約されたかに思われたGPT5
だが、完全に一つのモデルというわけではなかった。
✅まずここ
1. GPT‑5は“推論(Reasoning)モデル前提”。内部で複数段の思考工程(CoT系)を実行してから答えます
4o、4.1系に比べ、実行時間が長いです。
2. GPT5 の非思考型(非リーズニング)モデルは、 gpt‑5‑chat‑latest
ほぼ思考なし。4o、4.1系と同等のスピードです。
3. 近いうちにこれも統合されるらしい?
以下、参考箇所 OpenAI より抜粋
GPT‑5 は 2 つのモデルを搭載しています。ほとんどの質問に回答する、高性能かつ高速度のハイスループットモデルと、より難しい問題に対応する高度なリーズニングモデル(GPT‑5 思考)です。 また、会話のタイプや複雑さ、必要なツール、あるいは「慎重に考えて」といったユーザーの明確な意思に基づき、リアルタイムルーターがどのモデルを使用するかをすばやく判断します。 ルーターは、ユーザーによる手動切り替え、優先設定、測定された正確性など、実際のシグナルを基に継続的に学習し、継続的に進化しています。 近いうちに、これらの機能をすべて 1 つのモデルに統合する予定 ですが、ユーザー体験は現時点ですでに一貫性のあるものに感じられるはずです。
API では、gpt-5、gpt-5-mini、gpt-5-nano の3種類で GPT‑5 を提供しており、パフォーマンス、コスト、レイテンシのバランスを開発者自身が柔軟に設計できます。ChatGPT における GPT‑5 は、リーズニングモデル・非リーズニングモデル・ルーター機能の組み合わせですが、API プラットフォームにおける GPT‑5 は、最大性能を発揮するリーズニングモデルです。 なお、推論を最小化した GPT‑5 は、ChatGPT の非リーズニングモデルとは異なり、開発者向けにより最適化されています。ChatGPT で使用されている 非リーズニングモデルは、gpt-5-chat-latest として提供されています。
⏱ 時間重視なら gpt‑5‑chat‑latest
- ChatGPT で使われているFastモデル。推論は最小寄りで、応答レイテンシを下げたい会話UIに向きます
- API の
gpt‑5/mini/nano
は推論モデル(reasoning_effort
で最小化は可能だが、gpt‑5‑chatモデルよりは遅い) -
「4.1の速さが欲しい」 なら、まずは
gpt‑5‑chat‑latest
か、API ではgpt‑5‑mini + minimal + verbosity=low
を基準に - 位置づけ上、
gpt‑5‑chat‑latest
は “Thinking(推論)モードではなく高速側” を指すスナップショット(概念上 非リーズニング寄り と表現)
Reasoningモデルとは? “考える工程”
Reasoningモデルは“内部で考えてから話す”仕組み。入力→内部推論→出力の3段で、内部では CoT(Chain of Thought)により課題を手順化し、仮説→検証→選択を何度か回して一貫性を作ります。思考の中身はセキュリティのため通常返されず、外からは一発で出てきたように見えるのが特徴です。
- 非思考型モデル:次語を即時サンプリング。速い/安いが、条件整理や長文の整合に弱め
- 思考型(Reasoning)モデル:論理の一貫性や分解が得意。遅延とコストは増えがち
・長文耐性:Reasoningが高め(段階的に要点を保持)
・説明可能性:思考は非公開。必要なら“根拠を言語化”させる設計が要る
⚙️ 主要パラメータの要点
以下OpenAIより抜粋
開発者向けの新機能として、モデルの応答を柔軟に制御できるよう、API に新たな機能が追加されています。GPT‑5 は、応答の長さを調整できる新しいパラメーター verbosity(値:low、medium、high)に対応し、応答を要点を重視したかたちで簡潔に、また、長文で包括的にも調整できます。また、GPT‑5 の reasoning_effort パラメーターには minimal を設定することができ、詳細な推論を行わずにすばやく回答を得ることが可能になりました。
- 従来の「温度(
temperature
)でノリを変える」より、
推論量(reasoning_effort
)
説明量(verbosity
)
で挙動を最適化するように変更されました。
- 入力→内部推論※思考トークン→出力、という処理系。現状、生の思考ログは返さない仕様?(必要なら“説明”を出力させる設計に)
reasoning_effort
(どれだけ“考える”か)
-
minimal
: 最速・最安(抽出/整形/短要約/軽い分類など)。GPT‑5で新追加。 -
low
: 軽めに考える。ツール併用の定番。 -
medium
: バランス良し。業務の第一候補。 -
high
: 長考許容の難問・重要判定用。
verbosity
(どれだけ“詳しく書く”か)
-
low
: 簡潔=低レイテンシ/低コスト。 -
medium
: 既定。 -
high
: 説明多め=出力量・遅延・コスト増。
verbosity
は出力量の制御であり、推論量は変えません。速さ重視はlow
基本。
非対応・注意点(Reasoning系)
-
非対応:
temperature
/top_p
/presence_penalty
/frequency_penalty
/logprobs
/top_logprobs
/logit_bias
/max_tokens
など -
上限指定: Chat Completions では
max_completion_tokens
、Responses ではmax_output_tokens
を使用 -
モニタリング: 応答の使用量に**
reasoning_tokens
**(思考トークン指標)が含まれるモデルがある
GPT‑4.1 からの移行ポイント
項目 | GPT‑4.1 | GPT‑5 |
---|---|---|
モデル設計 | 非推論 |
推論が標準(APIの gpt‑5/mini/nano は推論モデル) |
推論制御 | なし | minimal/low/medium/high (minimal 追加) |
出力上限 | max_tokens |
max_completion_tokens (Chat)/max_output_tokens (Responses) |
サンプリング |
temperature/top_p あり |
多くの推論モデルで非対応 |
即応性重視 | 4.1 |
gpt‑5‑chat‑latest または gpt‑5‑mini + minimal
|
モデル選択の最短ルール
-
高精度の推論が必要 → gpt‑5(effort=medium/high)
-
コスパ&スピードの基準 → gpt‑5‑mini(minimal/low 開始)
-
超低コスト → gpt‑5‑nano(軽タスク/前処理用途)
-
会話体験を優先(4.1ライクな即応) →ChatGPT同等を試すなら gpt‑5‑chat‑latest
メモ: effort=minimal では 並列ツール呼び出しに制約がかかる場合があります。ツール多用なら low 以上を検討。
通常のRAGは、会話体験を優先させた方がいいと思ってます。
GPT5とほかGPTシリーズを数値で比較した記事はこちら
よくある疑問
- Q. CoT(生の思考過程)は見られる? → 不可。必要なら「手順を説明して」と外向きの説明を出力させる
-
Q. 推論ゼロにできる? → 原則不可。
reasoning_effort=minimal
は“最小化”であって停止ではない。gpt‑5‑chat‑latestならできる。 -
Q.
minimal
は 4.1 より弱い? → 4.1より頭がいい。gpt‑5‑chat‑latestよりも良い。難問はmedium/high
に上げるのが正解