[翻訳] GPT-4o mini: コスト効率の良いインテリジェンスの進歩

Posted at 2024-07-19

GPT-4o mini: advancing cost-efficient intelligence | OpenAIの翻訳です。

本書は著者が手動で翻訳したものであり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。

我々の最もコスト効率の良い小規模モデルのご紹介

OpenAIは、可能な限り広範にインテリジェンスにアクセスできるようにすることにコミットしています。本日、我々の最もコスト効率の良い小規模モデルであるGPT-4o miniを発表します。GPT-4o miniは、インテリジェンスをより安価にすることで、AIを用いて構築される様々なアプリケーションを大きく拡張することを期待しています。GPT-4o miniはMMLUで82%のスコアを出し、現時点ではLMSYS leaderboardにおいて、GPT-4を上回っています¹。百万入力トークンあたり15セント、百万出力トークンあたり60セントであり、以前の先端モデルよりも一桁安価であり、GPT-3.5 Turboよりも60%安価です。

GPT-4o miniによって、複数のモデル呼び出しをチェーンあるいは並列化し(複数のAPIの呼び出しなど)、モデルの大規模なコンテキストを引き渡したり(完全なコードベースや会話履歴など)、高速かつリアルタイムなテキストのレスポンスを通じて顧客とやり取りを行う(カスタマーサポートチャットボットなど)アプリケーションのような様々なタスクを低コストトレーテンシーで実現できるようになります。

本日、GPT-4o miniはAPIにおいて、テキスト、画像をサポートしており、将来的には動画と音声の入出力もサポートします。このモデルは128Kトークンのコンテキストウィンドウを持っており、リクエストあたり最大16Kの出力トークンをサポートし、2023/10までの知識を有しています。GPT-4oと共有される改善されたトークナイザーのおかげで、非英語のテキストの取り扱いをよりコスト効率高く行えるようになります。

優れたテキストインテリジェンスとマルチモーダル理由付けを持つ小規模モデル

GPT-4o miniは、テキストのインテリジェンスとマルチモーダルの理由付けの両方における学術的ベンチマークにおいて、GPT-3.5 Turboや他の小規模モデルを上回っており、GPT-4oと同じ範囲の言語をサポートしています。また、開発者が、データを取得したり外部システムにアクションを行うアプリケーションを開発できるようにするための関数呼び出しで強いパフォーマンスを示しており、また、GPT-3.5 Turboと比べて改善された長コンテキストのパフォーマンスを示しています。

GPT-4o miniは、いくつかのキーとなるベンチマークで評価されています²。

理由付けのタスク: GPT-4o miniはテキストとビジョンの両方を含む理由付けのタスクにおいて、他の小規模モデルよりも優れており、テキストのインテリジェンスと理由付けのベンチマークであるMMLUでは、Gemini Flashは77.9%、Claude Haikuは73.8%ですが、GPT-4o miniは82.0%のスコアを出しています。

数学とコーディングの技量: GPT-4o miniは数学的な理由付けやコーディングタスクに秀でており、市場のこれまでの小規模モデルを上回っています。数学理由付けを計測するMGSMでは、Gemini Flashは75.5%、Claude Haikuは71.7%ですが、GPT-4o miniは87.0%のスコアを出しています。コーディングのパフォーマンスを計測するHumanEvalでは、Gemini Flashは71.5%、Claude Haikuは75.9%ですが、GPT-4o miniは87.2%のスコアを出しています。

マルチモーダルの理由付け: また、マルチモーダルの理由付け評価であるMMMUでは、GPT-4o miniは強いパフォーマンスを示しており、Gemini Flashの56.1%やClaude Haikuの50.2%と比較して、59.4%のスコアを出しています。

モデル開発プロセスの一部において、GPT-4o miniのユースケースや制限をより理解するために、多くの信頼できるパートナーと連携しました。レシートファイルから構造化データを抽出するようなタスクや、スレッド履歴を与えられた際に高品質のメールレスポンスを生成するようなタスクにおいて、GTP-4oはGPT-3.5 Turboよりも遥かに優れたパフォーマンスを示すことを発見したRampやSuperhumanとパートナリングしました。

ビルトインの安全性指標

我々のモデルには最初から安全性が組み込まれており、開発ステップの全てのステップで強化されました。事前トレーニングにおいては、ヘイトスピーチ、アダルトコンテンツ、主に個人情報を収集するサイト、スパムのようにモデルに学習させたくない、出力してほしくない情報を除外しました。トレーニング後には、モデルのレスポンスの精度や信頼性を改善するために、reinforcement learning with human feedback (RLHF)のようなテクニックを用いて、モデルの挙動を我々のポリシーにアラインさせました。

GPT-4o miniには、我々のPreparedness Frameworkや、我々の自発的なコミットメントに沿う形での、自動化されたあるいは人間による評価を用いて注意深く評価されたGPT-4o組み込みの安全性対策と同じものが組み込まれています。社会心理学、誤情報のような領域における70以上の外部の専門家が、潜在的なリスクを特定するためにGPT-4oをテストし、それらの情報は間もなく提供するGPT-4o system cardやPreparedness scorecardで共有する予定です。

これらの学びに基づいて、我々のチームは研究によってもたらされた新たなテクニックを用いて、GPT-4o miniの安全性の改善に取り組みました。APIにおけるGPT-4o miniは、ジェイルブレーク、プロンプトインジェクション、システムプロンプトの抽出に抵抗するモデルの能力を改善する助けとなる我々のinstruction hierarchyメソッドを適用した最初のモデルとなります。これによって、モデルのレスポンスはより信頼できるものとなり、安心して大規模にアプリケーションに適用できるようになります。

GPT-4o miniがどのように活用されるのかの監視を継続し、新たなリスクを特定したらモデルの安全性を改善する予定です。

可用性と価格

GPT-4o miniは、Assistants API、Chat Completions API、Batch APIのテキストとビジョンモデルとして利用可能です。開発者は1M入力トークンあたり15セント、1M出力トークン(大まかに言って標準的な本の2500ページに相当)あたり60セントを支払います。数日中に、GPT-4o miniのファインチューニングをロールアウトする予定です。

ChatGPTにおいては、Free、Plus、Teamユーザーは本日からGPT-3.5を置き換える形でGPT-4o miniにアクセスすることができます。また、全ての人がAIのメリットを享受できるようにすると言うミッションに沿って、Enterpriseユーザーは来週からアクセスできるようになります。

次に来るのは

過去数年間において、AIインテリジェンスの特筆すべき全身は、コストの大幅な削減とセットになっていることを目撃しています。例えば、GPT-4o miniのトークンあたりのコストは、2022年に導入された能力の劣るモデルであるtext-davinci-003以来、99%減少しました。モデルの能力を強化しつつもコストを削減すると言うこの方向性を継続することにコミットしています。

我々は、モデルが全てのアプリや全てのウェブサイトにシームレスに組み込まれる未来を思い描いています。GPT-4o miniは、開発者がより効率的かつ低コストでパワフルなAIアプリケーションを構築し、スケールさせる道を作り出しています。AIの未来はよりアクセス可能で、信頼できるものとなり、我々の日々のデジタル体験に埋め込まれることになり、我々がその道をリードしていることに興奮しています。

2024/7/18時点で、GPT-4o miniの早期バージョンはGPT-4T 01-25を上回っています。 ↩
GPT-4o miniの評価値は、APIアシスタントシステムメッセージプロンプトを用いた我々のsimple-evalsリポジトリを用いて計算されています。競合のモデルに関しては、報告されている数値(利用可能な場合)、HELMリーダーボード、simple-evalを通じた我々の再現実験の結果の中から最大値を採用しています。 ↩

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up