はじめに
- 日本時間2025年8月8日午前2時、「GPT-5」が発表されました!
- 発表動画も長いので内容を備忘録的にまとめます
(約80分あります)動画をとっとと見たい方はこちら
https://www.youtube.com/watch?v=0Uu_VJeVVfo
発表①:新世代モデル「GPT-5」
GPT-5は、単なる性能向上モデルではなく、サム・アルトマン曰くその能力は
「高校生レベルだったGPT-3」
「大学生レベルだったGPT-4」を遥かに超え、
「あらゆる分野の博士号レベルの専門家」に匹敵するとのことです。
ハイブリッド推論って何?
これまでのモデルではReasoningモデル(OpenAI o3など)と、そうでないモデル(GPT-4oなど)を用途に応じて使い分ける必要がありました。
しかしGPT-5は、ユーザーの問いに対して「最適な思考量」を自動で判断し、速度と品質を両立します。
複雑なタスクには時間をかけて深く思考し、シンプルなタスクには即座に応答します。
ベンチマークスコアはどうなの?
発表で示されたGPT-5のベンチマークは以下です:
- コーディング能力
- 実際のソフトウェア開発タスクを模した「SWE-bench」で 74.9%
- 多言語コード編集能力を測る「Aider Polyglot」で 88% を達成
- 専門知識と問題解決能力
- 大学レベルの視覚的問題解決「MMMU」では 84.2% と人間の専門家をも上回る
- 数学オリンピック「AIME 2025」ではツールを併用することで 100% の正答率を記録
- ツール利用能力
- エージェントとしてのツール利用能力を測る「T²-bench」において、特にTelecom分野で 97% というスコアを記録
- Instruction Following
- 複雑な指示を正確に理解し実行する能力も大幅に向上。
- 「COLLIE」ベンチマークで 99% 、「Scale MultiChallenge」で 70%(o3から10ポイント向上)、そして実世界のAPI利用シナリオを想定したOpenAI内部評価では 64%(o3の47%から大幅向上)を達成
- 信頼性と正確性
- 事実に基づかない情報を生成してしまう、ハルシネーションの発生率が劇的に低下。
- 特に医療情報に関するベンチマーク「HealthBench」での誤情報は 1.6% と極めて低く、信頼性が大幅に向上
発表②:ChatGPTのアップデート
GPT-5は、すべてのChatGPTユーザーに提供されます。
- 無料ユーザー
- 本日よりGPT-5が利用可能になります。利用上限に達した場合は、GPT-4oを上回る性能を持つ新しい 「GPT-5 mini」 にシームレスに切り替わります。
- Plus/Proユーザー
- Plusユーザーはより高い利用上限が設定され、ProユーザーはGPT-5を無制限で利用できるほか、「拡張思考モード」を備えた 「GPT-5 Pro」 にもアクセスできます。
発表③:APIのアップデート
新モデルファミリーと新価格
APIでは、性能とコストに応じて選択できる3つの新モデルが提供されます。
- GPT-5
- GPT-5 mini
- GPT-5 nano
GPT-5 の価格は$1.25/1Mトークン
(入力)、
GPT-5 nano の価格は$0.05/1Mトークン
(入力)と、競争力のある価格設定。
↓これみるとgpt-5-chat-latest
とかもありますね
APIの新機能
- カスタムツール
- JSONだけでなく、自由な形式のプレーンテキストでツール出力を定義可能に
- 構造化出力
- 正規表現や文脈自由文法(CFG)を用いて、モデルの出力を厳密に制御可能
- ツールコールプリアンブル
- ツールを呼び出す前に、モデルがこれから何を行おうとしているかを説明させることが可能に
- 冗長性パラメータ
-
low
,medium
,high
で応答の長さを制御
-
- 400k(40万)トークンのコンテキストウィンドウ
- OpenAI o3 の2倍のコンテキスト長をサポート
エンタープライズでの活用事例
すでにAmgen(創薬)、BBVA(金融分析)、Oscar(ヘルスケア)といった企業でGPT-5が活用され、劇的な生産性向上を実現しています。また、米連邦政府の職員200万人がGPT-5を利用可能になることも発表されました。
発表④:安全性と信頼性の向上
セーフティーチームからは、「Safe Completions」という危険なプロンプトに対する新しいアプローチが紹介されました。
潜在的に危険性のあるプロンプトに対し、単純に回答を拒否するのではなく、安全な範囲で最大限の有用性を提供するという考え方です。
デモでは、花火に使われる点火剤に関する技術的な質問に対し、危険性を指摘しつつ、安全ガイドラインやマニュアルの参照を促すといった、より責任ある対応が示されました。
発表⑤:ヘルスケア分野におけるGPT-5の可能性
実際にがんと診断されたCarolinaさんとその夫が登壇。彼女がChatGPTを使い、難解な診断書の言葉を平易な言葉に翻訳してもらった経験を語りました。
さらに、複数の治療法の選択肢、それぞれのメリット・デメリットを提示してもらうことで、医師との対話に主体的に参加し、納得のいく決断を下すことができたと述べました。
発表⑥:デモで見るGPT-5の実力
Cursorのバグを修正
CursorのCEOをステージに迎え、3週間未解決だったopenai-python
ライブラリのPDFアップロードに関するGitHub IssueをGPT-5に解決させるデモが行われました。
ライブ配信中のバグを修正
以前のライブ配信で発生した「オーディオバッファ」に関するバグを、GPT-5に修正させるデモも行われました。
ゼロから作る金融ダッシュボード
「CFO向けの金融ダッシュボードを作って」という簡潔なプロンプトから、GPT-5はNext.jsとTailwind CSSを使い、美しくインタラクティブなダッシュボードを5分で構築。ビルドエラーが発生しても、そのエラーを自己分析してコードを修正。
3Dキャッスルゲームを生成
「いとこのために城のゲームを作って」というプロンプトで、three.jsを用いた3Dゲームを生成。城壁を歩く兵士、大砲、そして風船を割るミニゲームまで実装
物理シミュレーションを生成
「ベルヌーイの定理を説明するSVGアニメーションを作って」というプロンプトで、GPT-5は物理法則を理解したかのような挙動を見せ、パラメータを操作できるインタラクティブなデモを実装
フランス語学習アプリをゼロから開発
「パートナーのためにフランス語を学べるWebアプリを作って」というプロンプトから、GPT-5は要件を整理し、デザインを提案し、最終的にマウスとチーズが登場するインタラクティブなゲームを実装
ライティング能力の飛躍的向上(vs GPT-4o)
「前モデルへの追悼文」という同じお題に対し、GPT-4oが生成した定型的な文章と、GPT-5が生成した感情豊かで詩的な文章を比較。GPT-5は文脈やニュアンスを深く理解し、より人間らしい、心を動かす文章を作成できるようです。
さいごに
個人的には順当なアップデートで、アピールポイントとしてはReasoningモデルとの統合という印象を受けました。
いっぱいデモが出てきましたが、効果のほどは実際に使って試してみたいと思います。
弊社社員の宇宙最速?ハンズオン記事はこちら↓