Introducing ChatGPT [November 30, 2022時点]の翻訳です。
ChatGPTのご紹介
我々は会話形式でやり取りを行うChatGPTというモデルをトレーニングしました。対話型のフォーマットによって、ChatGPTは以降の質問に回答し、誤りを認め、不適切な前提に異議を唱え、不適切なリクエストを拒否することができます。
Try ChatGPT | Read about ChatGPT Plus
ChatGPTはプロンプトの指示に従って詳細なレスポンスを提供するようにトレーニングされた、InstructGPTの兄弟[姉妹]です。
ユーザーの皆様からのフィードバックをいただき、強みと弱みを理解するためにChatGPTをご紹介できることを嬉しく思っています。リサーチプレビュー期間はChatGPTは無料です。すぐにchat.openai.comでトライしてみてください。
サンプル
以下のサンプルでは、ChatGPTは以前の質問の主体("fermat’s little theorem")に対するリファレンス("it")を理解することができます。
原文をご覧ください
手法
我々は、InstructGPTと同様にReinforcement Learning from Human Feedback (人間のフィードバックによる強化学習: RLHF)を用いて、このモデルをトレーニングしましたが、データ収集の方法が若干異なります。我々は、教師ありファインチューニングを用いて初期モデルをトレーニングしました: 人間のAIトレーナーが両サイド(ユーザーとAIアシスタント)を演じる会話を提供しました。我々はトレーナーたちに彼らがレスポンスを作成できやすくするように、モデルによって記述された提案内容へのアクセスを提供しました。そして、対話フォーマットに変換されたInstructGPTデータセットとこの新たな対話データセットをミックスしました。
強化学習における褒賞モデルを作成するために、品質によってランク付けされる2つ以上のモデルレスポンスから構成される比較データが必要でした。このデータを収集するために、AIトレーナーとチャットボットの会話を取得しました。モデルが記述したメッセージをランダムに選択し、いくつかの大体コンプリーションをサンプリングし、AIトレーナーたちにランキングさせました。これらの褒章モデルを用いることで、Proximal Policy Optimizationを用いてモデルをファインチューンすることができます。このプロセスに対して何回かのイテレーションを行いました。
ChatGPTは、2022年はじめにトレーニングを完了したGPT-3.5シリーズのモデルからファインチューンされています。こちらから3.5シリーズの詳細を学ぶことができます。ChatGPTとGPT-3.5はAzure AIスーパーコンピューティングインフラストラクチャでトレーニングされました。
制限
- ChatGPTは時に、それらしく聞こえますが、誤っている、あるいはナンセンスな回答を記述します。この問題を修正することは次の理由から困難です: (1) RLトレーニング過程では真実を示す情報源は現時点では存在しません。(2) モデルがより注意深くなるようにトレーニングすると、正確に回答できることができる質問を拒否するようになります。(3) 理想的な回答は人間のデモンストレーターが知っていることではなく、モデルが知っていることに依存するため、教師ありトレーニングはモデルをミスリードします。
- ChatGPTは、入力文の言い方や同じプロンプトを複数回繰り返そうとするような調整に敏感です。例えば、ある質問文を与えた際にモデルが回答を知らないと返したとしても、少々言い方を変えることで適切な回答が得られることがあります。
- モデルは多くの場合、過度に饒舌で、OpenAIによってトレーニングされた言語モデルであることを再度述べるような特定のフレーズを過度に使用することがあります。これらの問題は、トレーニングデータのバイアス(トレーナーがより包括的に見える長い回答を好むなど)や、よく知られる過度の最適化問題によるものです。1 2
- 理想的には、ユーザーが曖昧な問い合わせをした際には、モデルは質問を明確にする問いかけを行うことでしょう。そうではなく、我々の現在のモデルは通常はユーザーの意図を推測します。
- 我々は、モデルが不適切なリクエストを拒否するように取り組みを行っていますが、時には害のある指示に反応したり、バイアスのある挙動を示すことがあります。特定のタイプの安全ではないコンテンツを警告、ブロックするためにModeration APIを使用していますが、現時点ではいくつかの偽陰性、偽陽性があると考えています。このシステムを改善するために、現在の成果物を修正するべく積極的にユーザーのフィードバックを収集しています。
イテレーティブなデプロイメント(繰り返しの配備)
現在のChatGPTのリサーチリリースは、より安全で有用なAIシステムのOpenAIにおけるイテレーティブなデプロイメントの最新のステップです。GPT-3やCodexのような初期モデルのデプロイメントからの多くの学びは、このリリースにおける安全なインプレースのマイグレーションに情報を提供しました。これには、人間のフィードバックによる強化学習(RLHF)を活用することで達成された、有害かつ正しくないアウトプットの劇的な削減が含まれています。
以下のサンプルでは、ChatGPTとInstructGPTを比較しており、ChatGPTへの安全な移行をデモストレーションしています。
原文をご覧ください
上で議論したように、我々は多くの制限が存在していることを理解しており、このような領域で改善するように定期的なモデルのアップデートを計画しています。しかし、ChatGPTにアクセス可能なインタフェースを提供することで、我々がまだ気づいていない問題に対する価値のあるユーザーフィードバックを得られるだろうと考えています。
ユーザーの皆様からは、UIを通じて問題のあるモデルのアウトプットに対するフィードバックや、インタフェースの一部として利用できる外部コンテンツフィルターの偽陽性/偽陰性のフィードバックをいただけると大変助かります。我々は特に、現実世界で起こりうる有害なアウトプットや非敵対的条件に関するフィードバック、新たなリスクを明らかにし理解する助けとなるフィードバックや可能性のある緩和策に興味を持っています。$500のAPIクレジット3を勝ち取るためにChatGPT Feedback Contest4に参加することを選択することができます。ChatGPTインタフェースからリンクされているフィードバックフォームを通じてエントリーを提出することができます。
このリリースに貢献した以前のデプロイメント同様に、より能力のあるシステムのデプロイメントに、このリリースから得られる学びを取り込めることを大変嬉しく思っています。
関連資料
-
ChatGPTサイトの翻訳
-
GPT-4 Technical Reportの翻訳
-
GPT-4 System Cardの翻訳
-
GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Modelsの翻訳
-
Stiennon, Nisan, et al. “Learning to summarize with human feedback.” Advances in Neural Information Processing Systems 33 (2020): 3008-3021. ↩
-
Gao, Leo, John Schulman, and Jacob Hilton. “Scaling Laws for Reward Model Overoptimization.” arXiv preprint arXiv:2210.10760 (2022). ↩
-
購入は不要であり、法律で禁止されている行為は無効です。登録するには18歳以上である必要があります。コンテストの詳細はOfficial Rulesをご覧ください。 ↩
-
このコンテストの発想は、Kenway, Josh, Camille François, Sasha Costanza-Chock, Inioluwa Deborah Raji, Joy Buolamwiniの取り組みの一部から来ています。Bug Bounties For Algorithmic Harms? Lessons from Cybersecurity Vulnerability Disclosure for Algorithmic Harms Discovery, Disclosure, and Redress. Washington, DC: Algorithmic Justice League. January 2022. https://ajl.org/bugs をご覧下さい。Brundage, Miles, Avin, Shahar, Wang, Jasmine, Belfield, Haydn, Gretchen Kruegerらによる取り組みもご覧ください。“Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims,” April 2020. https://arxiv.org/abs/2004.07213 をご覧ください。HackerOneのような初期の事例をご覧ください。2021b. “Twitter Algorithmic Bias.” HackerOne. https://hackerone.com/twitter-algorithmic-bias?type=team 最後に、Rubinovitz, JBによるこのトピックの公開物をご覧ください。“Bias Bounty Programs as a Method of Combatting Bias in AI,” August 2018. https://rubinovitz.com/2018/08/01/bias-bounty-programs-as-a-method-of-combatting ↩