こんにちは、XRエンジニアのイワケンです。
GPT-4が出た!というツイートで起きました。
早速ドキュメントを見て要約してもらいましょう。
本来であれば、画像入力で要約できそうですが、この記事は英文をコピペ→ChatGPTに要約という流れで作っています。
We’ve created GPT-4, the latest milestone in OpenAI’s effort in scaling up deep learning. GPT-4 is a large multimodal model (accepting image and text inputs, emitting text outputs) that, while less capable than humans in many real-world scenarios, exhibits human-level performance on various professional and academic benchmarks.
私たちは、ディープラーニングのスケールアップを目指すOpenAIの取り組みの最新マイルストーンであるGPT-4を作成しました。GPT-4は大規模なマルチモーダルモデル(画像とテキストの入力を受け付け、テキスト出力を出す)で、多くの実世界のシナリオでは人間より能力が劣るものの、さまざまな専門的・学術的ベンチマークで人間レベルの性能を発揮する。(DeepL)
画像とテキストの入力も受け付ける!だと?
Paperを読んでみる
Paperも読んでみます。
Abstract
GPT-4は、画像とテキストを入力し、テキストを出力することができる大規模なマルチモーダルモデルであり、その開発について報告する。GPT-4は、実世界の多くの場面で人間より能力が劣るものの、模擬司法試験で受験者の上位10%程度のスコアで合格するなど、様々な専門的・学術的ベンチマークで人間レベルの性能を示しています。GPT-4は、文書中の次のトークンを予測するために事前に学習されたTransformerベースのモデルです。GPT-4は、文書中の次のトークンを予測するよう事前に学習させたTransformerベースのモデルで、学習後のアライメントプロセスにより、事実性、望ましい行動への忠実さなどのパフォーマンスが向上しています。このプロジェクトの中核をなすのは、幅広いスケールで予測可能な振る舞いをするインフラと最適化手法の開発でした。これにより、GPT-4の1,000分の1以下の計算量で学習したモデルから、GPT-4の性能の一部を正確に予測することができるようになりました。
↓ChatGPTで要約
GPT-4は、画像や文章を理解し、文章を作成することができる高度なAIモデルです。このモデルは、専門的な試験で高い成績を収めるなど、人間レベルの性能を発揮しています。GPT-4の開発では、効率的な学習方法と振る舞いの予測が重要な役割を果たしています。
1. Introduction
この技術報告書では、画像とテキストを処理し、テキストを出力できる大規模なマルチモーダルモデルであるGPT-4を紹介しています。このようなモデルは、対話システムや文章の要約、機械翻訳など、幅広い用途で活用できるため、近年注目を集めています。GPT-4は、人間向けの試験で高い性能を発揮し、従来のモデルを大幅に上回ります。しかし、信頼性や学習能力には限りがあるため、使用には注意が必要です。GPT-4の安全性や限界に関する研究は、社会への影響を考慮すると重要な課題となっています。
2. Scope and Limitations of this Technical Report (範囲と制限)
この報告書では、GPT-4の性能、限界、および安全性に焦点を当てています。GPT-4は、インターネットデータなどの公開データや第三者からのデータを使用して、文章の次の単語を予測するように学習されたモデルです。競争状況や大規模モデルの安全性を考慮し、アーキテクチャやハードウェアなどの詳細は記載されていません。透明性の向上と競争・安全性のバランスを取るために、第三者への技術詳細の提供を検討しています。
3. Predictable Scaling (予測可能スケーリング)
GPT-4プロジェクトでは、予測可能にスケールするディープラーニング技術の開発に力を入れました。というのも、GPT-4のような大規模な学習において、モデルごとの詳細な調整を行うことは現実的ではありません。そこで、さまざまな規模で予測可能な振る舞いを持つインフラと最適化手法を開発しました。これにより、GPT-4の性能の一部を、はるかに小さい計算量で学習されたモデルから確実に予測することができるようになりました。
4. Capabilities (能力)
GPT-4は、人間向けに作られた試験を含む多様なベンチマークでテストされました。試験問題は、選択肢式と記述式の両方で構成され、必要に応じて画像も入力されました。試験のスコアは、公開されている方法論を使用して算出されました。
GPT-4は、これらの専門的・学術的試験の多くで人間レベルの性能を発揮しました。特に、模擬司法試験で受験者の上位10%のスコアを獲得しました。モデルの試験での性能は、事前学習プロセスに主に起因し、強化学習による微調整の影響はあまりありませんでした。
また、GPT-4は、言語モデルの評価に設計された従来のベンチマークでも評価されました。GPT-4は、既存の言語モデルや最先端のシステムを大幅に上回る性能を発揮しました。
さらに、GPT-4の他言語での性能を評価するために、多様な言語に翻訳されたMMLUベンチマークを使用しました。GPT-4は、英語以外の言語でも、GPT-3.5や既存の言語モデルを上回る性能を示しました。これには、リソースが少ないラトビア語、ウェールズ語、スワヒリ語などの言語も含まれていました。
GPT-4は、ユーザーの意図に従う能力が以前のモデルより大幅に向上しています。5,214のプロンプトが含まれるデータセットで、GPT-4による回答はGPT-3.5の回答よりも70.2%の割合で好まれました。また、GPT-4のようなモデルを評価するためのフレームワーク「OpenAI Evals」をオープンソース化しています。これを使って、モデルの性能を追跡し、タスクや失敗モードの多様性を増やす予定です。
4.1 Visual Input (視覚的インプット)
GPT-4は、画像とテキストを含むプロンプトを受け入れ、視覚や言語のタスクを指定できます。モデルは、テキストと画像が組み合わされた入力を受け取り、テキストの出力を生成します。文章や写真、図表、スクリーンショットなど、さまざまな分野で、GPT-4はテキストのみの入力と同様の性能を発揮します。言語モデル用に開発された標準的なテスト技術(例:少数ショットプロンプト、チェーンオブソートなど)も、画像とテキストを使用する場合に同様に効果的です。今後の作業で、GPT-4の視覚能力に関する詳細情報を公開する予定です。
5. Limitations (制約)
GPT-4は能力が高いものの、以前のGPTモデルと同様の制約があります。特に、完全には信頼できず、事実をでっち上げる(ホールディネーション)ことや推論エラーを起こすことがあります。言語モデルの出力を使用する際には注意が必要で、特に重要な状況では、特定のアプリケーションに応じたプロトコル(人間によるレビュー、追加の文脈での根拠付け、あるいは高リスクの利用を完全に避ける)が必要です。GPT-4は、GPT-3.5と比較して事実でない情報を生成する割合を大幅に減らしています。
GPT-4は、間違った文と事実を見分ける能力をテストするTruthfulQAなどの公開ベンチマークで進歩しています。しかし、GPT-4は経験から学習しないため、2019年9月以降の出来事に関する知識がほとんどありません。また、ユーザーからの明らかに偽の情報を受け入れることがあります。GPT-4は自信過剰な間違いを犯すことがあり、確認作業を怠ることがあります。GPT-4は、出力に様々なバイアスがあり、それらを完全に把握し管理するまでに時間がかかります。私たちは、GPT-4や他のシステムが多くのユーザーの価値観を反映した適切なデフォルトの動作を持ち、広範囲のカスタマイズが可能であり、その範囲についての公的な意見を取り入れることを目指しています。詳細はOpenAI [62]を参照してください。
6. Risks & mitigations (リスクと緩和策)
GPT-4の安全性と整合性を向上させるために多くの努力が払われています。専門家による敵対的テストやモデル支援の安全プロセスを用いて、安全性を向上させています。しかし、GPT-4は有害なアドバイスや誤った情報を生成するリスクが依然として存在します。
専門家と協力して、リスクを理解し、モデルの改善に役立てています。例えば、危険な化学物質の合成方法を拒否する能力を向上させるために、追加のデータを収集しています。
GPT-4の振る舞いを改善するために、人間のフィードバックを用いた強化学習(RLHF)を使用しています。しかし、まだ安全でない入力や望ましくない振る舞いが残っています。そのため、ルールベースの報酬モデル(RBRM)などの手法を用いて、より適切な振る舞いを目指しています。
これらの緩和策により、GPT-4の安全性が大幅に向上しました。禁止されたコンテンツへの反応がGPT-3.5と比較して82%減少し、機密性の高いリクエストに対して29%の向上が見られました。しかしながら、悪い振る舞いを引き出すことがまだ可能です。そのため、モニタリングや迅速なモデル改善などの安全対策が重要です。
GPT-4やその後継モデルは、社会に良い影響も悪い影響も与える可能性があります。外部研究者と協力して、潜在的な影響を理解し評価する方法を改善し、AIの経済的影響に対する初期のアイデアを発表する予定です。
7. Conclusion
GPT-4は、人間並みのパフォーマンスを持つ大規模な多モーダルモデルで、難しい専門家や学術基準に対して優れた性能を発揮します。GPT-4は、NLPタスクの集合で既存の大規模言語モデルを上回り、多くの言語で改善された能力を示します。予測可能なスケーリングにより、GPT-4の損失や能力を正確に予測できることがわかりました。GPT-4は、能力の向上に伴い新たなリスクが生じますが、安全性と整合性を向上させるための方法と結果についても説明しています。GPT-4は、広く有用で安全に展開されたAIシステムへの重要な一歩です。