はじめに
こんにちは、ひよこです。先日 o3 と o4-mini 系列が発表された ChatGPT ですが、最近、OpenAI から発表される LLM(大規模言語モデル)の種類が増えすぎて、「どれが何に向いてるの?」「どれを使えばいいの?」と混乱してきました。
今回は、最新の信頼できる公式情報をもとに、実務利用での視点から OpenAI の LLM を体系的に比較し、それぞれの強み・弱みを分かりやすくまとめてみました。
ChatGPT と API のモデル対応一覧
区分 | モデル | ChatGPT (Web/App) | OpenAI API | 備考 |
---|---|---|---|---|
マルチモーダル対応 | GPT‑4o | ✔(Free※1 Plus Team Enterprise) | ✔ | Free は 5 時間ごと※2 にメッセージ上限 |
高精度推論 | o3 | ✔(Plus Team Enterprise) | ✔ | 全ツール利用可 |
コスト効率推論 | o4‑mini/o4‑mini‑high | ✔ | ✔ | high はプリセットで追加課金なし |
長文+高度コーディング | GPT‑4.1 | ― | ✔ | API 専用、最大 1 M context (標準は 128 k) |
レガシープレビュー | GPT‑4.5 | ― | ✔(〜2025 年 7 月 14 日) | 4.1 へ移行推奨 |
旧モデル | GPT‑4 | ― | ✔ | 2025 年 4 月 30 日に廃止予定 |
※1 Free プランで GPT‑4o が上限に達すると GPT‑4o mini (nano?) へ自動切替
※2 3 時間 / 10 ターン制限に変更になったとの報告あり
時間がない人用のまとめ
性能順
- o3 – SWE‑bench 69.1 % / MMLU 88.8 %
- o4‑mini/o4‑mini‑high – SWE‑bench 68.1 % / MMLU 85.2 %
- GPT‑4.1 – SWE‑bench 54.6 % / MMLU 90.2 %*
- GPT‑4.5 – 推定 SWE‑bench ≈ 50 %
- GPT‑4o – SWE‑bench 33.2 % / MMLU 88.7 %
価格順 (入力単価が最安の順)
- o4‑mini/o4‑mini‑high $1.10 /M
- GPT‑4.1 $2.00 /M
- GPT‑4o $5.00 /M
- o3 $10.00 /M
- GPT‑4.5 $75.00 /M
🐣 低コスト運用なら o4‑mini 系一択。GPT‑4.1 は 4o よりも安いんですね
費用対効果順 (SWE‑bench ÷ 出力単価)
- o4‑mini/o4‑mini‑high 68.1 ÷ 4.40 ≈ 15.5
- GPT‑4.1 54.6 ÷ 8.00 ≈ 6.8
- o3 69.1 ÷ 40.00 ≈ 1.73
- GPT‑4o 33.2 ÷ 20.00 ≈ 1.67
- GPT‑4.5 50 ÷ 150.00 ≈ 0.3
汎用開発や社内 Bot の運用なら o4‑mini で十分そうです。長い入力長を扱いたかったり高度コード生成は GPT‑4.1 が最適ですね。
選択時の指針
- まず迷ったら o4‑mini – 安価で十分高性能
- マルチモーダル必須なら GPT‑4o
- 100 万 tokens や難問コーディングは GPT‑4.1
- 最高精度が利益直結する局所タスクのみ o3 をスポット利用
- GPT‑4.5 は 2025‑07‑14 に廃止予定 – 新規採用は避ける
入力対応フォーマット
モデル | テキスト | PDF/Office | 画像 | 音声 | 動画 | 備考 |
---|---|---|---|---|---|---|
o3 | ✔ | ✔ | ✔ | ー | ー | CSV/Excel 解析可 |
o4‑mini/high | ✔ | ✔ | ✔ | ー | ー | o3 と同 API |
GPT‑4o | ✔ | ✔ | ✔ | ✔ | ✔ | 単一リクエストで混在可 |
GPT‑4.5 | ✔ | ✔ | ✔ | ✔ | ✔ | プレビューのみ |
GPT‑4.1 | ✔ | ✔ | ✔ | ー | ー | GPT‑4.1 用独自 API |
3 API 料金($/1 M tokens)
モデル | 入力 | 出力 | キャッシュ入力 |
---|---|---|---|
o3 | 10.00 | 40.00 | 2.50 |
o4‑mini/high | 1.10 | 4.40 | 0.275 |
GPT‑4o | 5.00 | 20.00 | 1.25 |
GPT‑4.1 | 2.00 | 8.00 | 0.50 |
GPT‑4.5 | 75.00 | 150.00 | 37.5 |
ツール呼び出し(Web 検索・Python など)は別途「ツールコール課金」が加算されます。
4 代表ベンチマーク
指標 | o3‑high | o4‑mini‑high | GPT‑4o | GPT‑4.1 | 備考 |
---|---|---|---|---|---|
SWE‑bench Verified | 69.1 % | 68.1 % | 33.2 % | 54.6 % | |
MMLU (0‑shot) | 88.8 % | 85.2 % | 88.7 % | 90.2 %* | *外部速報値 |
5 費用対効果の目安
- o4‑mini 同一プロンプトを 10 回/日実行すると o3 比で約 −90 % のコスト
- GPT‑4o 音声+画像を すべて 4o の API だけで処理した場合、Whisper API(0.006 $/分)+ o4‑mini の組み合わせより およそ 18 % 低コスト
- GPT‑4.1 20 万 tokens 文書を 1 回の呼び出しでレビューすると、o4‑mini で複数チャンクに分割するより 実行回数を半減可能(コストでは拮抗〜微増)
6 開発体制とモデルの位置づけ
系列 | 公式説明 | 補足 |
---|---|---|
o シリーズ | GPT‑4 系 Transformer に「tool use 蒸留」+ RLHF | 単なる推論モード切替ではない |
GPT‑4o/4.1 | GPT‑4 ファミリーを改良、4.1 は context と効率最適化 | |
GPT‑4.5 | GPT‑4o スケール試験モデル、API は 7 月 14 日停止 |
7 Web 版と API 版の差異
機能 | o シリーズ Web | o シリーズ API | GPT‑4o Web | GPT‑4o API | GPT‑4.1 API |
---|---|---|---|---|---|
画像/PDF アップロード | ✔ | ✔ | ✔ | ✔ | ✔ |
Web 検索ツール | ✔ | ―* | ✔ | ✔ | ✔ |
Python 実行 | ✔ | ― | ✔ | ― | ― |
Function Calling | ― | ✔ | ― | ✔ | ✔ |
音声 I/O | ― | ― | ✔ | ✔ | ー |
* API でも Function Calling で検索エンジン併用が可能
8 バックグラウンド LLM は結局何?
表示名 | 想定される基盤モデル(社内コード推定) | 主な特徴 / 拡張 | パラメータ規模・備考* |
---|---|---|---|
GPT‑4o | GPT‑4o(natively‑multimodal Transformer) | テキスト・画像・音声を単一トークン空間で処理する統合型マルチモーダルモデル.ASR/TTS は別モジュールだが同一推論パスで連携 | 非公開 |
GPT‑4 Turbo (≒ 4.1) | GPT‑4 Turbo 系 | 128 k〜1 M トークン長の文脈拡張,圧縮アテンション,推論最適化 | 非公開 |
GPT‑4.5 Preview | GPT‑4o 派生のスケールアウト版 | 長文脈と高速推論の実験リリース(公開終了予定あり) | 非公開(GPT‑4 超級と推定) |
o3 | tool‑use distilled GPT‑4 | GPT‑4 Turbo を自己監督蒸留し,ツール呼び出し計画(agentic tool use)を標準装備 | 非公開 |
o4‑mini / o4‑mini‑high | GPT‑4‑mini MoE | GPT‑4 系を 20 B 級 Mixture‑of‑Experts に縮小し,高速・低コスト化(high は推論強化) | 推定 20 B(活性化 4 B) |
* パラメータ規模は公式未公開のため推定値または「非公開」と表記。
早わかりポイント
-
o 系列は GPT‑4.1 が「裏で動いている」わけではない
o3 は GPT‑4.1 を教師に 蒸留 してツール連鎖専用に再訓練した独立チェックポイント
o4‑mini はその小型版(MoE 採用)で、推論コストを大幅削減 -
GPT‑4 系列は名前=基底モデル
GPT‑4o、GPT‑4.1、GPT‑4.5 はそれぞれ個別に事前学習+RLHF された「本体」
マルチモーダル統合や長文最適化など目的別の改良が直に適用済 -
共通点
すべて Transformer 系で、内部は非公開
ツール利用(Function Calling・Python など)は追加 RLHF で後付け
o 系はツール利用がデフォルトで強く、GPT‑4 系はプロンプトや設定で有効化する設計
🐣 o3/o4 が MoE で何個の GPT-4 蒸留モデルをエキスパートとして用いているかはわかりませんでした
9 まとめ
- 基本は o4‑mini で試してコスト感覚を掴み、マルチモーダルは GPT‑4o、高精度長文処理は GPT‑4.1 へスイッチ
- GPT‑4.5 は 2025‑07‑14 廃止予定なので早めの移行を推奨
- API で Function Calling やキャッシュ活用するとコストもさらに最適化可能
おわりに
モデルがちょっと乱立しすぎて「結局どれが一番いいの?」って毎回悩むんですよね…。今回まとめたおかげで私自身も頭がスッキリしました! 個人的には以下の点がいまだに気になるところではありますが…
- 4o と o4 が会話時に混ざるので困る
- 4.1 と 4.5 のように数字の大小と性能が逆転するとわかりにくい
- RLHF や MoE など後付部分が多くてどこまでを LLM と呼べばいいのか不安になる
推論内容、コーディング支援、音声認識、長文レビュー…。使い方に応じてモデルを変えるだけでかなり世界が変わることがわかってきました。
あなたもぜひ、自分の目的に合ったモデルを見つけて、OpenAI LLM の世界を楽しんでくださいね!
ではまた次の記事でお会いしましょう。