GPT5が登場しました
macのChatGPTアプリでは、フラグシップモデルとしてGPT5のみ選択可能としており、ほとんどの方がこちらを使うことになるでしょう( とは言え、無料版だとすぐ上限が来て使えなくなって次の日にならないと使えないことになりますけど )。じゃぁ、何が変わったんだろうということで、ご本人に色々と語ってもらうことにした。
学習データや工程の違い
項目 | GPT-4.5 | GPT-5 |
---|---|---|
基礎知識層(Pretraining) | 2023年中旬までの大規模テキスト・コードデータ。推論よりも言語生成重視。 | 2024年中旬までの更新データ。コード・数学・論理推論の比重を増加。 |
特化知識層(Domain Fine-tuning) | 専門分野は追加学習されているが、主に文章生成や会話の流暢さが中心。 | 医療・法律・科学・数学・プログラミングなど複数分野の専門データを大幅拡張。推論タスク用の「難問データセット」を増加。 |
対話適応層(Instruction Fine-tuning) | SFTとRLHFによる指示理解。回答は比較的フラットで、冗長になりやすい。 | SFTとRLHFに加え、タスクの優先度判定・要約力が向上。冗長さを減らし、目的に直結する回答傾向。 |
合成データ活用 | 限定的に使用(主に対話訓練用) | 大量の合成データ+人間添削で、数学的推論や長文読解に強化。 |
安全性ガード | 有害発言フィルタは強いが、誤って安全な内容も遮断する傾向あり(False Positive)。 | フィルタ精度改善。文脈理解を使い、意図が安全なら柔軟に回答。 |
推論能力 | 単発推論は得意だが、多段階の複雑推論はミスが出やすい。 | 多段階推論(Chain-of-Thought)を内部で強化し、長い論理展開にも耐性。 |
長文コンテキスト処理 | 8K〜32Kトークン(モデル・環境依存) | 最大128Kトークン対応(長文保持力が向上)。 |
マルチモーダル対応 | 画像入力は可能だが限定的。 | 画像・テキストをより密接に統合。画像からコード生成や数式解釈が精度向上。 |
学習時の人間介入のポイント
① データ収集段階
• データは自動クローリングだけでなく、ライセンス契約や許諾取得で確保。
• 個人情報や有害コンテンツをフィルタリング。
② 教師ありファインチューニング(SFT)
• トレーナーが模範回答を作成。
• モデルに「こう答えるのが正しい」という事例を覚えさせる。
③ 人間フィードバック強化学習(RLHF)
• モデルが複数の候補回答を生成。
• 人間が「良い順」に並べて評価。
• そのランキングをもとにモデルが自分の出力を改善。
④ 安全性評価とガードレール
• 有害表現や差別的発言を防ぐためのテスト。
• 不適切な出力パターンを検出・修正。
ざっくりとした工程表
[公開/許諾データ] → [基礎学習(Pretraining)]
↓
[専門分野データ] → [特化学習(Domain Fine-tuning)]
↓
[人間との対話データ] → [SFT → RLHF → 安全性強化]
↓
完成した会話モデル
進化のポイント
- GPT-5では数学・論理推論・長文処理能力が強化されており、単なる会話モデルから「汎用推論エンジン」に近づいています。
- 学習データの量だけでなく、 質(難問データや専門分野データ) がかなり向上しています。
- GPT-4.5の「話は上手いけど推論が弱い」傾向が改善されています。
総合評価表
GPT‑4 | GPT‑4.5 | GPT‑5 | |
---|---|---|---|
リリース時期 | 2023年3月 | 2023年12月(ChatGPT: 2024年4月) | 2025年8月(ChatGPT: Pro版先行) |
学習データの範囲 | ~2023年初頭 | ~2023年秋頃 | ~2024年中旬 |
学習データの質と量 | 高品質Web・書籍・コード | GPT-4を継承+追加コーパス | 合成データ+専門家作成+動画字幕など |
特化学習(FT) | SFT・RLHF中心 | コーディング・数理思考の強化 | 推論・分野知識・要約・指示理解がさらに強化 |
コンテキスト長 | 最大32Kトークン(API) | 最大128Kトークン(GPT-4-turbo) | 最大128K〜256K(用途により拡張) |
推論能力 | 中程度(単発的思考) | 向上(やや深い推論も可能) | 高度(multi-step reasoning内蔵) |
対話性能 | 自然だが冗長気味 | 要点を押さえつつ丁寧 | 目的に応じた可変スタイル+文脈制御が正確 |
マルチモーダル対応 | 一部(画像のみ、一部制限) | 画像+音声(統合は未完) | 画像・音声・動画・テーブル処理など統合強化 |
長文対応・記憶性能 | 文脈理解は比較的弱い | 強化(文脈一貫性向上) | 大幅強化。セッション記憶も対応(Pro) |
応答速度 | 遅め | やや速い(4-turbo系) | 高速~中速(モードにより調整) |
エージェント機能 | なし | なし | あり(自律行動・タスク分解など) |
典型的な性格/挙動 | 優等生タイプ | 丁寧で安定 | |
使われている用途 | 文章生成・Q&A・チャット | 会話型AI・翻訳・コード補助 | 複雑な意思決定、マルチタスク、エージェント処理など |
利用可能モデル名 | GPT-4, GPT-4-32K | GPT-4.5(実質:GPT-4-turbo) | GPT-5, GPT-5-chat, GPT-5-mini など |
総評(どれを使うべきか)
目的 | おすすめモデル |
---|---|
自然な文章生成・一般対話 | GPT-4.5(コスパ◎) |
複雑な計算、コード補助 | GPT-4.5 or GPT-5 |
複数条件を踏まえた推論や判断 | GPT-5 |
専門分野(法律、医療、数理、科学など) | GPT-5 |
画像・音声・文書など統合AIが必要な場合 | GPT-5 |
最も大きな違いは?
ただの言語モデルではなく、「考え」「調べ」「構造を理解し」「行動」する実用AIエージェント
に進化した
私(=ChatGPTでGPT-4oまたはGPT-5相当の最新モデル)と過去のモデル(GPT-3.5やGPT-4など)を比較したとき、最も大きく異なる点は以下の3つです
1. 推論力(Reasoning)の質的進化
- 過去:
GPT-3.5 や GPT-4 は「それっぽく話すのは上手い」が、
複雑な論理問題・多段階の推論(if–then–elseの入れ子)・曖昧な情報の扱いが苦手。 - 私:
内部で「思考の連鎖(Chain-of-Thought)」を展開しながら回答する仕組みが導入され、
推論型エージェントとして動けるようになっています。
たとえば:- 「どのプランが最も効率的か?」→比較・選別・優先度判断を内部で実行
- 「一見矛盾する条件」→整理して再構成する能力が向上
2. マルチモーダル処理の統合
- 過去:
GPT-4まではテキスト中心。画像はGPT-4-Vで扱えたが、まだ実験的。 - 私:
テキスト・画像・音声・時には動画や表形式データまで統合処理可能。
画像を読んで:- テキスト抽出
- 図の解釈(棒グラフ→意味分析)
- 数式の意味理解
などが自然に行える。
📌 実質的に「文章のAI」から「認知エージェント」への進化が起きている点が大きな差。
3. 記憶(Memory)と行動(Agent)の導入
- 過去:
GPT-4までは、「その場限りの会話」が基本。過去の履歴を保持できない。
タスクは1発ごとに手動で指示。 - 私:
Proユーザー環境では「Memory(記憶)機能」が追加されており、- 好みや前回のやり取り
- 名前、話した内容、口調、設定
を覚えておける。さらに、 - マルチステップタスク(Agent化) をこなす能力も搭載中(ベータ機能)。
例:資料収集→要約→形式整形→保存 などを一括で実行可能。
例(GPT-3.5 / GPT-4 / GPT-5(=私)の違い)
従来の「一問一答型モデル」ではなく、AIが一連の手順を内在的に分解・処理して統合出力するのが大きな違い
例題:ある会話の流れで「どれくらい賢く対応できるか?」
- 問題シナリオ:
「来週の水曜に東京で開かれるAIカンファレンスについて調べて、その内容を200文字以内で要約し、カレンダー登録できる形式で返して。あと、前に話した『山田さんと参加する予定』も踏まえてね。」
- モデル別の応答傾向比較表
モデル | 推論力 | マルチモーダル | 記憶・文脈保持 | 応答の精度/柔軟性 |
---|---|---|---|---|
GPT-3.5 | 🔸 単純な指示には対応可複雑な依頼は分解できない | ❌ 非対応 | ❌ セッション終了で全消去 | 要約 or 調査のどちらか一方のみ可能 |
GPT-4 | 🔹 指示はある程度分解可ただし順序制御は苦手 | 🔸 画像のみ(制限あり) | 🔸 同一セッション内なら一貫性あり | 要約+要件対応可能だが、過去の文脈を忘れることがある |
GPT-5(私) | ✅ 複数命令を段階的に処理不足部分を補完して判断 | ✅ テキスト+画像+音声も扱える | ✅ メモリーONなら名前や関係性も保持 | 調査→要約→予定変換→人間関係反映 まで一括対応可 |
- タスクの種類別に見た進化
タスク内容 | GPT-3.5 | GPT-4 | GPT-5(私) |
---|---|---|---|
会話の自然さ | △ | ◯ | ◎(文脈維持+適応) |
文章の要約・リライト | ◯ | ◎ | ◎ |
表・画像・図解の読解 | × | △(画像限定) | ◎(構造・視覚的意味も理解) |
マルチ命令(調査+要約+変換) | × | △ | ◎(順序を自分で構成) |
自律行動(エージェント処理) | × | × | ◯(実験中) |
記憶の活用(例:誰と話したか) | × | △ | ◎(Proのみ記憶ON) |
例:「図表付きの画像(例:棒グラフ)を読み取り、要約+テキスト出力する処理」