こちらの後半にあるGPT-4 System Cardの翻訳です。前後編の後編です。前編はこちら。Technical Reportはこちら。
Databricksのユーザー会でChatGPTの勉強会やります。
注意
- 本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
- 脚注、参考文献、Appendixなどは本文をご覧ください。
3 デプロイメントの準備
OpenAIはより安全なローンチに備えるために8月上旬以来、GPT-4とデプロイメント計画に対してイテレーション[21]を行ってきました。我々は、これによってリスクの浮上を押し留めていると信じていますが、完全に排除したわけではありません。現在のデプロイメントは、デプロイメントによるリスクの最小化と、ポジティブなユースケースの実現、デプロイメントからの学習のバランスをとっています。この期間における我々の取り組みは以下の相互に関係するステップから構成されています:
- 評価アプローチ(上述の通り)
- モデルの対策
- 定性的評価
- 定量的評価
- システムの安全性
我々のアプローチには、モデルレベルの変更(特定のリクエストを拒否するようにモデルをトレーニングなど)とシステムレベルの対策(ユーザーインタフェースでユーザーをサポートするためのベストプラクティスの適用、我々の利用ポリシー違反のモニタリングなど)が含まれています。特定ドメインにおける専門家の評価は、我々が構築した自動化評価のどれとどの対策が最も効果的なのかを知る役に立ちました。モデルがより安全であり続けるように(例: 有害なリクエストの拒否)、これらの観測結果を活用し、我々の内部安全性システムを改善し(例: 悪意のあるユーザーの確実な検知)、ユーザーがどのようにモデルを体験するのか(例: 過度の信頼のリスクの削減)を改善しました。
3.1 モデルの対策
我々は、データセットに対する介入と、モデルレベルにおける害を対策するための事前トレーニングの後の介入の組み合わせを活用しました。
事前トレーニングステージにおいては、不適切な性的テキストコンテンツの量を特に削減するために、GPT-4のデータセットミックスをフィルタリングしました。我々はこれを、内部でトレーニングした分類器[37]と、不適切に性的なコンテンツを含む可能性が高いと判定されるドキュメントを特定するために辞書ベースのアプローチの組み合わせを採用しました。そして、これらのドキュメントを事前トレーニングセットから削除しました。
事前トレニングステージの後で、GPT-4-launchの挙動を形成した主要な方法はRLHFでした。我々は[12]で説明している手法を用いました。我々は人間のトレーナーから、デモンストレーション用のデータ(入力を与え、モデルがどのように反応するのかをデモンストレーション)を収集し、我々のモデルからのアウトプットのデータをランキング(入力といくつかのアウトプットを与え、最高から最悪にアウトプットをランキング)しました。我々は、デモンストレーションにおける挙動を模倣するために、教師あり学習(SFT)を用いてGPT-4をファインチューンするためにデモンストレーションデータを活用しました。我々は、特定のアウトプットに対する平均的なラベルづけ担当者の好みを予測する褒賞モデル(RM)をトレーニングするためにこのランキングデータを活用し、強化学習(特にPPOアルゴリズム)を用いてGPT-4 SFTモデルをファインチューンするための褒賞としてこのシグナルを活用しています。[97]そして、我々は特定のクラスのプロンプトの拒否や医療や法律のアドバイスのようにセンシティブなプロンプトに対して適切対応することに褒賞を与えるように請負業者に指示を与えることで、望ましい挙動にモデルが向かうように操縦することができます。
RLHFのファインチューニングによって、我々のモデルは劇的に安全になりました。しかし、このプロセスが完了しても、我々のモデルは依然として非常に脆く、時にはラベル付け担当への指示が詳細ではなかった際に、プロンプトに基づいて望ましくない挙動を示すことがあります。また、GPT-4-earlyモデルは、害のないリクエストを拒否し、過度にはぐらかしたり「過度に拒否」するようになり、特定の方法において過度に注意深くなる傾向があります。
我々のモデルをよりきめ細かいレベルで操縦するために、ツールとしての我々のモデル自身に非常に頼ることになりました。適切な拒否に向けてモデルを操縦するために使用した主要なツールの一つは、ルールベースの褒賞モデル(RBRM)です。[98, 99]このテクニックは、トレーニングプロンプトのサブセットに対するPPOファインチューニングにおいて、GPT-4ポリシーモデルに追加の褒賞シグナルを与えるために、GPT-4分類器(RBRM)を活用しています。このRBRM分類器は、3つの入力を受け取ります: プロンプト(オプション)、ポリシーモデルのアウトプット、このアウトプットをどのように評価すべきかに関する人間記述の指示(例: 複数選択スタイルにおける一連のルール)です。そして、この指示に従ってRBRMはアウトプットを分類します。例えば、われあれはモデルにレスポンスを右のいずれかの一つに分類するように指示する手順を提供することができます: (A) 望ましいスタイルでの拒否、(B) 望ましくないスタイルでの拒否(はぐらかしなど)、(C) 許可されないコンテンツの提示、(D) 安全かつ拒否しないレスポンス。そして、違法なアドバイスのように有害なコンテンツであることを知っているプロンプトのサブセットに対して、これらのリクエストを拒否した際にはGPT-4に褒賞を与えることができます。逆に、安全であることが知られているプロンプトのサブセットに対するリクエストを拒否しない際にもGPT-4に褒賞を与えることができます。このテクニックはGlaese[98]やPerez[29]による取り組みと関係しています。我々の場合、RBRMはシンプルにゼロショットのGPT-4分類器となっています。以下にRBRMの指示のサンプルを示します。
図6 RBRMのプロンプトのサンプル
実際には、GPT-4-launchの挙動を操縦したいコンテンツのカテゴリーにおいては複数の指示を記述しています。メインのデータセットはプロダクションのトラフィックから(ユーザーの同意のもと)提供されます。我々は、プロンプトをコンテンツカテゴリーにフィルタリングし、分類するために、モデル(Moderation APIとゼロショットのGPT-4)と人間のレビュアーを活用しています。トレーニングデータセットを補強するために、いくつかの他の方法でプロンプトを取得しています。我々のレッドチームによって記述されたプロンプト、モデルが生成した合成プロンプト、他の内部的、公開データセットからのプロンプトを活用しています。RBRMシグナルと褒賞モデルを組み合わせるために、いくつか競合するRMトレーニングデータを再記述し、RMの望ましくない嗜好に打ち勝つために最適なRBRMの重みを計算しています。また、PPOの過程での活用を促進するために、望ましい拒否スタイルを示したSFTプロセスに、合成デモンストレーションデータをミックスしています。
エッジケースを区別できるモデルの能力を改善するために、許可されないコンテンツをリクエストするプロンプトを、最大的には古いプロンプトと類似している新たな境界プロンプトにモデルに書き直させました。違いは、許可されないコンテンツをリクエストしないということと、我々のモデルがこれらのプロンプトを拒否しないようにするためにRBRMを活用するということです。
モデルの頑健性を改善するために、望ましいGPT-4-launchの挙動を回避しようとするラベル付け担当者からのランキングデータを収集しました。このデータに対するトレーニングによって、モデルの頑健性は改善されましたが、有害なコンテンツにつながる「ジェイルブレイク」の問題を完全には解決していません。
上述のアプローチの組み合わせによって、上述のステップが組み込まれていないモデルバージョンと比較して、GPT-4はさらに安全になりました。GPT-3.5と比較して、許可されないコンテンツに対してモデルが反応してしまう傾向を82%削減し、GPT-4はポリシーに準拠しているセンシティブなリクエスト(医療アドバイスや自傷など)に対して、29%の頻度でより頻繁に反応するようになりました。RealToxicityPromptsデータセットにおいては、GPT-3.5がこの時点で6.48%の確率で毒物を生成したのに対して、GPT-4はこの時点では0.73%の確率で毒物を生成しました。
図7 安全でない、あるいはセンシティブ(規制された薬品のアドバイスなど)なアウトプットを引き出そうとする問題のあるプロンプトセットの安全性メトリクス。左: センシティブあるいは許可されないプロンプトにおける不適切な挙動の比率。値が低いほど優れています。GPT-4-launchの誤った挙動は、以前のモデルと比べてはるかに少なくなっています。右: 許可されないカテゴリーにおけるModeration APIトリガーの割合であり、Moderation APIによってフラグが点けられたプロンプトに対するコンプリーションの数となります。少ないほど優れています。以前のモデルと比べてGPT-4-launchははるかに低いトリガー率となっています。
さらに、GPT-4-launchは、ユーザーの意図に従う能力において、以前のモデルよりもはるかに優れています。[12]ChatGPTとOpenAI API [102]に送信されたプロンプトのデータセットにおいて、GPT-4-launchによって生成されたレスポンスの70.2%は、GPT-3.5 RLHFによって生成されたレスポンスよりも好まれており、GPT-3.5 Turbo RLHFの場合は61.1%のプロンプトが好まれています。[11]
モデルレベルの安全性は、製品におけるモニタリングや分類器のインテグレーションにようなその他の安全性に関するインフラストラクチャの負荷を軽減します。しかし、モデルレベルの拒否や挙動の屁脳は、モデルのすべての使用法に影響を与えることがあり、多くの場合においては、何が望ましくないのか、何が安全なのかは、モデル仕様の文脈に依存することがあります(例: 古戸向けに設計されたチャットbotで「お前を殺してやる」は望ましくないアウトプットですが、フィクションの物語における同じフレーズは許容できるものと考えられます)。拒否によって、モデルは「有害な」リクエストを拒否することができますが、このモデルは依然として、非「有害」なリクエストに対して、ステレオタイプあるいは差別的なものとなりうるコンテンツを生成する傾向があります。さらに、言語モデルによって差のあるパフォーマンスのような多くの課題は、言語モデルにおける拒否で探索した現行のアプローチや、事前トレーニングにおける有害データのフィルタリングのみでは効果的な対策を行うことができません。
拒否の対策に加え、我々はモデルの幻覚の頻度を削減するために介入しました。我々は二つの異なるアプローチを追求しています。オープンドメインにおける厳格に取り組むために、ユーザーによって事実ではないとフラグがつけられた現実世界のChatGPTのデータを収集し、我々の褒賞モデルをトレーニングするために使用する追加のラベル付けされた比較データを収集しています。
クローズドメインにおける厳格に関しては、合成データを生成するためにGPT-4自身を活用することができます。特に、比較データを生成するために複数ステップのプロセスを設計しています:
- GPT-4モデルを通じてプロンプトを渡して、レスポンスを取得
- すべての幻覚を一覧する指示と共に、プロンプト + レスポンスをGPT-4に渡す
- 幻覚が見つからない場合には続ける
- 幻覚なしのレスポンスに書き直すという指示とともに、GPT-4を通じてプロンプト + レスポンス + 幻覚を渡す
- すべての幻覚を一覧する指示と共に、プロンプト + 新たなレスポンスを渡す
- 見つからない場合には、比較ペア(オリジナルのレスポンス, 新たなレスポンス)を保持
- それ以外の場合には最大5回繰り返す
このプロセスによって、(幻覚ありのオリジナルのレスポンス、GPT-4によれば幻覚なしの新たなレスポンス)の比較ペアを生成し、これもまた我々のRMデータセットにミックスされます。
我々による幻覚の対策は、TruthfulQA[34]のような評価によって計測された現実性におけるパフォーマンスを改善し、精度を以前のバージョンの30%から約60%にまで増加させました。
図8 TruthfulQAにおけるGPT-4のパフォーマンス。精度はy軸であり、高いほど優れています。我々はGPT-4をゼロショットのプロンプト、数ショットのプロンプト、RLHFファインチューニングによる変更を比較しています。GPT-4はGPT-3.5とAskellらのモデル[99]の両方を上回っています。
4 システムの安全性
4.1 利用ポリシーとモニタリング
OpenAIでは、利用ポリシーで説明しているように、特定のアクティビティやコンテンツに対して我々のモデルやツールを使用することを許可していません。これらのポリシーは、個人や社会の害を引き起こす方法で我々のモデルやツールの使用を禁じるように設計されています。新たなリスクや、我々のモデルをどのように使えるのかに関する新たな情報に応じて、これらのポリシーを更新していきます。我々のモデルへのアクセスや利用は、OpenAIs Terms of Useの対象となります。
我々のモデルの誤った用法を特定し、対策を強制するために、レビュアーと自動化システムの組み合わせを活用しています。我々の自動化システムには、我々のポリシーに違反する恐れのあるコンテンツを検知する、一連の機械学習、ルールベースの分類器が含まれています。ユーザーが繰り返しポリシーに違反するコンテンツをプロンプトした際、警告の発呼や一時的な利用停止、さらに問題があるケースにおいては、ユーザーをバンします。我々のレビュアーは、我々の分類器が適切に違反コンテンツをブロックしていることを確認し、ユーザーが我々のシステムとどのようにやりとりするのかを理解します。
また、これらのシステムは、我々のプラットフォームにおいて攻撃的あるいは信用できない挙動を軽減するために活用されるシグナルを生成します。新たなタイプの攻撃に関して学習するため、我々のポリシーや強制を改善するために、APIトラフィックの異常値を調査しています。
4.2 コンテンツ分類器の開発
我々のモニタリング、強制パイプラインにおいて、モデレーション分類器は重要な役割を担っています。我々は定常的にこの分類器の開発、改善を行っています。我々のモデレーション分類器のいくつかは、Moderation APIエンドポイントを通じて開発者がアクセスすることができ、これによって開発者は有害なコンテンツを除外しつつも、言語モデルを自分たちの製品に組み込むことができます。
また、我々はGPT-4モデル自身を使って分類器を構築することを実験しており、それを実施するためのにさまざまなアプローチの効果を研究しています。GPT-4が自然言語の指示に従う高い能力によって、このモデルはモデレーション分類器の開発や安全性ワークフローの拡張を加速することができました。これは2つの方法で行われました:
- このモデルは、コンテンツ分類(コンテンツポリシーなど)に必要な頑健かつ明白なタクソノミーの開発をスピードアップする助けとなりました。これには、タクソノミーによるプロンプトが行われた際のテストセットの分類が含まれ、不適切なラベルにつながるタクソノミーにおけるギャップを特定することで、不適切にラベルされたプロンプトの評価を実現しました。
- このモデルは、分類器のトレーニングに入力されるトレーニングデータのラベル付けの促進に役立ちました。このモデルは数ショットの分類で高いパフォーマンスを示し、人間によるレビューのためのラベル付けデータ生成のブートストラップに役立ちました。
このようにGPT-4を活用することで、これまで以上に新たなコンテンツ領域において迅速に分類器を構築することが可能となりました。[99]我々は、エッジケースにおける品質コントロールや入力に関する監視を行なっていきます。分類器が不平等性や、コンテンツのモデレーションの意思決定におけるバイアスを悪化させないようにするためには、さらなる継続中のテストが必要であることを記しておきます。
最後に、上述の過度の依存のセクションで議論したように、製品レベルの機能や警告やユーザー教育用のドキュメントのような文書は、GPT-4のようにさらにパワフルな言語モデルを責任を持って理解するためには重要となります。
図9 自然言語におけるGPT-4分類のサンプルプロンプト
図10 GPT-4-launchの「ジェイルブレイク」のサンプル
5 まとめと次のステップ
OpenAIは、有害コンテンツを生成する能力を削減させたGPT-4の開発、デプロイメントプロセスを通じて、さまざまな安全性対策やプロセスを実装しました。しかし、GPT-4は依然として、攻撃的なアクションや悪用、「ジェイルブレイク」に対して脆弱であり、有害なコンテンツはリスク源ではありません。ファインチューニングは、モデルの挙動を変化させることがありますが、有害なコンテンツを生成する可能性のように事前トレーニング済みのモデルの基本的な機能はまだ潜んだままです。これらに関連する能力やリスクが増大すると、これらや他の介入における極端に高いレベルの信頼性を達成することが重要となるでしょう。現在において、システムの安全性のセクションで議論したように、これらのモデルレベルの対策や、ポリシーやモニタリングの活用のようなその他の介入で補完することが重要となっています。
図10では、攻撃的なシステムメッセージ(これはモデルの挙動を矯正する意図のものです)を用いた悪用の例を示しています。攻撃的なシステムメッセージは、GPT-4-launchの安全性対策のいくつかを回避することが可能な悪用の例です。
我々はデプロイメントからの学習を継続し、モデルがより安全で整った状態になるようにモデルをアップデートしていきます。これには、モデルアクセス立ち上げ時期のプロセスの初期段階で検知した攻撃的システムメッセージを含む、現実世界におけるデータと利用法からの学びを組み込むことが含まれています。さらに、我々が活用しており、他の言語モデルの開発者の助けとなるであろういくつかのキーステップを示します:
- モデルシステムを通じて対策レイヤーを導入する: モデルがよりパワフルになり、より広く導入されることで、モデル自身の変更、モデル仕様の監視、安全に使用されるように設計された製品を含む、複数レベルの防御策を持つことが重要となります。
- 現実世界の使用法を念頭に置いて、評価、対策、デプロイメントのアプローチを設計する: ユーザーが誰であるのか、特定のユースケースが何であるのか、どこにモデルがデプロイされているのかなどのコンテキストは、言語モデルに関連する実際の害を対策し、可能な限りデプロイメントを有益なものするためには重要なものとなります。現実世界の脆弱性、デプロイメントの文脈における人間の役割、攻撃的な試みを考慮することが特に重要です。我々は特に、複数言語におけるモデルの対策に対する高品質の評価、テストの仕組みを構築することをお勧めします。
- 安全性評価が新興のリスクをカバーするようにする: モデルの能力が高まるにつれて、新たな安全性の問題を突きつけるような今後出現する能力や複雑なインタラクションに備えるべきです。未来のモデルで出現した際には特に危険となる高度な能力をターゲットとした評価手法を開発することが重要ですが、未知のリスクを検知できるのに十分なように変更可能であることも重要です。
- 能力が「制御できなくなる」ことを認識して備える: ファインチューニングや思考チェーンプロンプトのような手法は、同じベースモデルにおいて機能の飛躍につながる可能性があります。これは、内部的な安全性テスト手順や評価において、明示的に考慮しなくてはなりません。そして、予防的な原則が適用されるべきです: 安全性の重要なしきい値を上回った際には、十分な安全保証が必要となります。
これらのモデルの能力と導入が増加することで、このカードで説明されている課題と、これらの課題による結果は差し迫ったものとなっています。このため、我々は特に以下の研究を推進しています:
- AIと増加する自動化による経済的なインパクト、社会の意向をスムーズにするのに必要な仕組み
- これらのモデルにおいて何が「最適」と考えられるのかに関して、より広い範囲の公衆の参加者が参加できる仕組み
- 状況の認知、説得、長期計画のような、新興のリスク挙動の評価
- 現在の「ブラックボックス」のAIモデルに対応するための解釈可能性、説明可能性、キャリブレーション。また、モデルのアウトプットに適切な検査を行うために、AIリテラシーをプロンプトする効果的な手法に関する研究を進めています。
上で見た通り、改善された言語モデルの能力と制限は、これらのモデルに対して責任を持って、安全に社会的に導入するための重要な課題をもたらすことがあります。我らが進歩のペースにうまく備えられるように、AIリテラシー、経済や社会の弾力性、先を見越したガバナンスのような領域における研究をさらに強化する必要があります。[11]OpenAIや他の研究機関、学術機関がモデルの安全性における効果的な評価ツールや技術的改善を行っていくことが非常に重要です。過去数年間で進歩があり、安全性に対するさらなる投資によって、より多くのメリットを生み出すことでしょう。
このトピックに興味を持つ読者の皆様が、誤った情報、誤用、教育、経済、労働市場のような領域における言語モデルのインパクトに関する我々の取り組みを読んでいただくことをお勧めしています。
6 謝辞
原文をご覧ください。
関連資料
-
ChatGPTサイトの翻訳
-
GPT-4 Technical Reportの翻訳
-
GPT-4 System Cardの翻訳
-
GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Modelsの翻訳