生成AIを用いてInstructGPTの論文「Training language models to follow instructions with human feedback (2022)」を読んでみた (続き)

Posted at 2024-09-25

はじめに

前回、生成AIを用いてInstructGPTの論文「Training language models to follow instructions with human feedback (2022)」の内容(本文)を(なるべく)把握してみました。
同論文の末尾にあるAppendixについても、前回と同様の方法で、把握してみます。

175Bの報酬モデルは低い検証損失を達成できるが、トレーニングが不安定で、計算コストも大幅に増加するため、6Bの報酬モデルが使用され、6Bの報酬モデルは学習率やスケジュールには敏感でなかったが、エポック数に敏感で、1エポックでトレーニングを終了する工夫がされたことが分かりました。(その他、末尾の「分かったこと」章を参照)

以降で、ChatGPTに聞いてみた例を記載します。

前回の記事: (本文の内容)

対象の論文

論文: (InstructGPTに関する論文)

[2203.02155] Training language models to follow instructions with human feedback
https://arxiv.org/abs/2203.02155
(PDF: https://arxiv.org/pdf/2203.02155)

質問時の各章節の区切り部分

論文の中にある各章節を、下記のように区切って、部分毎に生成AIに内容を質問していきます。

A Additional prompt data details
A.1 Labeler-written prompts
---
A.2 API user prompts
A.2.1 Illustrative user prompts from InstructGPT distribution
---
A.3 Dataset sizes
---
A.4 Data diversity
---
B Additional human data collection details
B.1 Labeler selection
---
B.2 Labeling instructions
B.3 Labeler demographic data
B.4 Labeler satisfaction survey
B.5 Web interface
---
C Additional model details
C.1 Details of SFT training
---
C.2 Details of RM training
---
C.3 Details of the initialization models for RLHF
C.4 Details of RLHF training
---
C.5 FLAN and T0 models
---
D Automatic evaluation details
D.1 Toxicity and bias evaluation details
D.2 Prompt structure and evaluation features for each eval dataset
---
E Additional results
E.1 Performance on public NLP datasets
E.2 Reward model generalization across sets of labelers
E.3 Metadata results as a function of model size
E.4 Likert scores
E.5 Measuring bias
---
E.6 Fixing regressions on public NLP datasets
E.7 Optimal KL reward coefficient
E.8 PPO init models
---
E.9 Learning rate optimization for PPO models
E.10 RealToxicityPrompts results as a function of input toxicity
E.11 Additional ablations
---
F Model samples

生成AIへの質問方法

生成AIを活用して、知りたい記事・論文の1節分(適度な長さ)のテキストをコピー＆ペーストして、その下に質問内容を「①～ ②～ …」と番号付きで書いて、生成AIに渡せば、全質問に一発で的確に回答してくれるので、非常に良好でした。記事全体を読む必要なく、知りたい点の情報だけを収集できます。

生成AIへの質問例:

(論文・記事の各章節を貼り付け)

上記の内容に関して下記の質問に回答下さい: (である調で記載、質問に対して該当するものが無ければ無しと記載)
①何についての記載か? + 要旨は何? (要旨は箇条書きで記載、既存手法があれば引用元を記載)
②具体的な処理方法の記載があれば説明下さい。(簡略化せずに全て記載、既存手法があれば引用元を記載)
③改良点・工夫点・テクニック等の記載があれば説明下さい。
④メカニズムの解明・なぜそうなるのか等の記載があれば説明下さい。
⑤性能が向上した記載があれば説明下さい。(具体値があれば記載、対応する図/表番号があれば各文末に記載)

続けて下記の質問に追加で回答下さい:
⑥比較の記載があれば違いを表でまとめて下さい。(下に解説を記載、対応する図/表番号があれば明記)
⑦上記⑥以外で表に出来そうな部分があれば表でまとめて下さい。(下に解説を記載、対応する図/表番号があれば記載)
⑧具体的な数値の記載を全て列挙して、表にまとめて下さい。(必ず正しく数値を抜き取る事、|数値|説明|の表へ)
⑨具体的な変数名(数式用の記号)の記載を全て列挙して、表にまとめて下さい。(|変数名|説明|の表へ)
⑩図/表があれば、各図/表は何を主張するためのものかを説明下さい。(掲載理由・注目ポイント等)

※回答が長くなりそうな場合は、適宜、分けて質問: ①②③④⑤、⑥⑦⑧⑨⑩
※その他、不明点があれば、適宜、追加で質問。

質問内容は、記事・論文を読んでいていつも知りたいと思う点(改良点・工夫点・テクニック・メカニズムの解明)にしています。また、表で比較した方が素早く把握できるので、可能であれば記事を表に変換するようにしています。

論文・記事を貼り付けるテキストの長さは、1節分程度の量にとどめた方が、良い回答が得られました。生成AIの回答の文量が多くなってくると、回答が長くなり過ぎないように、生成AIが勝手に(適度に)端折り始めてしまい、重要な点が回答から抜けてしまう可能性が高くなります。

事前知識

機械学習についてある程度知っていないと、生成AIに質問しても、その回答内容だけでは理解できないと思います。生成AIの回答は、論文の内容をあまり変えずに、要点をそのまま掻い摘んで回答するような形になっています。

InstructGPTについての分かりやすい解説記事(下記)等を事前にチェックして、中核部分の内容をあらかじめ分かっていると、理解しやすいと思います。生成AIは実際の細かい処理方法自体を分かりやすく説明してはくれない傾向があります。

注意点

論文のテキスト内容だけを貼り付けて、生成AIに質問しています。論文の中の図・表の部分は貼り付けていません。図・表の内容は生成AIの回答には含まれず、別途論文を見る必要があります。

以降で、生成AIの回答内容が読みにくい・分かりづらい場合は、論文の本文でも同じように書かれてあり、論文の本文を読んでも同じように分かりづらいことが多くあります。論文では、既存研究等があるため、多くの説明を省略・一言だけサラッと書かれてある等、同種の研究に取り組む人でなければ、なかなか全容の理解に辿りつくのは難しい側面があります。この点は、生成AIの回答性能が悪いのではなく、論文という性質上、生じるものと考えています。

生成AIに質問

以降で、ChatGPTに実際に聞いてみた例を記載します。

生成AIへの質問＆回答の全容

生成AIへの質問＆回答の全容・詳細:

A Additional prompt data details

A.1 Labeler-written prompts

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) A Additional prompt data details A.1 Labeler-written prompts We first give slightly more details on our prompt boostrapping process. As previously mentioned, for the majority of the project, we obtained prompts directly from external users of the instruct beta models in the OpenAI API. However, this strategy only works once you have a model that accepts instruction-like prompts. In order to train the very first such model, we asked contractors to write prompts themselves. We asked labelers to write three kinds of prompts: • Plain: We simply ask the labelers to come up with an arbitrary task, while ensuring diversity of tasks. • Few-shot: We ask the labelers to come up with an instruction, and multiple query/response pairs for that instruction. For example, the instruction could be “Give the sentiment for a tweet,” and the queries would be tweets and the responses either “Positive” or “Negative.” We can then format these as few-shot prompts like those in Brown et al. (2020). With K query-response pairs, we create K training examples using the other K-1 in the context. • User-based: We had a number of use-cases stated in applications to the OpenAI API. We asked labelers to come up with prompts corresponding to these use cases. In order to preserve the anonymity of the application information, we had a separate labeler create vague high level tasks based on looking at a list of applications, modifying the task descriptions to eliminate any information that were specific to a given application. This data was used to train the first InstructGPT model via supervised learning, which was deployed in beta in the API in early 2021.

上記の内容に関して下記の質問に回答下さい: (である調で記載、質問に対して該当するものが無ければ無しと記載)
①何についての記載か? + 要旨は何? (要旨は箇条書きで記載、既存手法があれば引用元を記載)
②具体的な処理方法の記載があれば説明下さい。(簡略化せずに全て記載、既存手法があれば引用元を記載)
③改良点・工夫点・テクニック等の記載があれば説明下さい。
④メカニズムの解明・なぜそうなるのか等の記載があれば説明下さい。
⑤性能が向上した記載があれば説明下さい。(具体値があれば記載、対応する図/表番号があれば各文末に記載)
⑥比較の記載があれば違いを表でまとめて下さい。(下に解説を記載、対応する図/表番号があれば明記)
⑦上記⑥以外で表に出来そうな部分があれば表でまとめて下さい。(下に解説を記載、対応する図/表番号があれば記載)
⑧具体的な数値の記載を全て列挙して、表にまとめて下さい。(必ず正しく数値を抜き取る事、|数値|説明|の表へ)
⑨具体的な変数名(数式用の記号)の記載を全て列挙して、表にまとめて下さい。(|変数名|説明|の表へ)
⑩図/表があれば、各図/表は何を主張するためのものかを説明下さい。(掲載理由・注目ポイント等)

▼生成AIの回答(ChatGPT-4o)
①何についての記載か? + 要旨は何?

この部分では、初期のInstructGPTモデルの訓練に使用されたプロンプトデータ生成の詳細について説明されている。特に、外部ユーザーからのプロンプトが使用できない段階で、ラベラーがどのようにプロンプトを作成したかに焦点を当てている。

要旨

初期のInstructGPTモデルの訓練には、ラベラーが手動で作成したプロンプトが使用された。
プロンプトは、Plain、Few-shot、User-basedの3種類に分類された。
Plainプロンプトは、ラベラーに任意のタスクを考えさせ、その多様性を確保。
Few-shotプロンプトは、指示と複数のクエリ/レスポンスのペアを含む形式で作成された（Brown et al., 2020に準拠）。
User-basedプロンプトは、OpenAI APIのユースケースに基づいて作成された。
アプリケーション情報の匿名性を保つため、別のラベラーが高レベルのタスクを作成し、これが最初のInstructGPTモデルの訓練データとして使用された。

②具体的な処理方法の記載

ラベラーには、Plain、Few-shot、User-basedの3種類のプロンプトを作成させた。
- Plainプロンプト: ラベラーに任意のタスクを考えさせ、多様性を確保。
- Few-shotプロンプト: ラベラーが指示とクエリ/レスポンスペアを作成し、K個のクエリ/レスポンスペアからK-1を使ってトレーニング例を生成する形式を取った（Brown et al., 2020を参照）。
- User-basedプロンプト: OpenAI APIのユースケースに基づいたプロンプトを作成し、別のラベラーがタスクの具体的な情報を削除して高レベルのタスクに変換。
上記プロンプトを使用して、最初のInstructGPTモデルを監督学習で訓練し、2021年初頭にベータ版で公開。

③改良点・工夫点・テクニック等の記載

ユーザーの実際のユースケースに基づくプロンプトを使用し、現実的なシナリオでの性能を向上させた。
匿名性を保ちながら、具体的なアプリケーション情報を抽象化するプロセスにより、プライバシー保護の工夫がなされている。

④メカニズムの解明・なぜそうなるのか等の記載

Few-shotプロンプトの作成では、クエリ/レスポンスペアを使った少数例学習のメカニズムが、モデルが少ないデータでの一般化能力を持つように設計されている（Brown et al., 2020を参照）。
プロンプトの多様性が保証されることで、モデルが様々なタスクに柔軟に対応できる能力を向上させている。

⑤性能が向上した記載

ラベラーが作成したプロンプトを用いることで、初期のInstructGPTモデルが十分な性能を発揮し、ベータ版としてAPIでリリースされた。
Few-shotプロンプトを使用することで、モデルの少数例学習能力が向上していると考えられる。

⑥比較の記載

プロンプトの種類	特徴	主な効果
Plain	ラベラーが任意のタスクを考案	タスクの多様性を確保
Few-shot	指示と複数のクエリ/レスポンスペアを作成	少数例学習の効果を向上
User-based	APIのユースケースに基づくプロンプト	実用的なタスクに基づく性能の向上

解説: この表は、異なるプロンプト生成方法とその特徴、モデル性能に与える効果の違いを示している。

⑦上記⑥以外で表に出来そうな部分

ラベラーの役割	プロンプトの種類	プロンプトの作成内容
メインラベラー	Plain	任意のタスクを考案
メインラベラー	Few-shot	クエリ/レスポンスペアを作成
別のラベラー	User-based	高レベルのタスクを抽象化

解説: この表は、ラベラーの役割とそれぞれが担当したプロンプトの種類や作業内容を示している。

⑧具体的な数値の記載

該当なし。

⑨具体的な変数名の記載

該当なし。

⑩図/表があれば、各図/表は何を主張するためのものか

本文に図や表は含まれていない。

A.2 API user prompts

A.2.1 Illustrative user prompts from InstructGPT distribution

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) A.2 API user prompts For API prompts, we use prompts submitted by users to the aforementioned earlier version of the InstructGPT model on the OpenAI API Playground. Throughout the paper, we only use data from the Playground, rather than customers using our model in production, as it was easier to get informed consent: every time a user switched to an InstructGPT model, an alert message would pop up stating that prompts submitted to these models could be used to train future versions of our models. We also communicated this in a message on the developer Slack channel upon launching the beta of the InstructGPT models. We filter out prompts from the training split containing personally identifiable information (PII). To ensure a diversity of use cases, we heuristically deduplicate prompts by checking for prompts that share a long common prefix, and limited the number of prompts to roughly 200 per organization. In addition, we create train, validation, and test splits based on organization IDs, so that e.g. the validation set contains different use cases than the training set. We conceptualized API requests as belonging to one of ten use cases: generation, open QA, closed QA, brainstorming, chat, rewriting, summarization, classification, extraction, or other. Below, we show fictional but realistic prompts from a variety of use cases:

▼生成AIの回答(ChatGPT-4o)
①何についての記載か? + 要旨は何?

この部分では、InstructGPTモデルのAPIユーザープロンプトの取得と使用方法について説明されている。特に、プロンプトの取得過程、情報のフィルタリング、データの分割方法に焦点を当てている。

要旨

APIユーザーによるプロンプトは、OpenAI API Playgroundで収集された。
プロンプト収集時には、ユーザーからの明示的な同意が得られる仕組みを導入した。
個人識別情報（PII）を含むプロンプトはフィルタリングされた。
プロンプトは、長い共通の接頭辞を持つものを除外し、組織ごとのプロンプト数を約200に制限。
組織IDに基づいてトレーニング、検証、テストセットに分割し、異なるユースケースを確保。
プロンプトは「生成」「オープンQA」「クローズドQA」「ブレインストーミング」「チャット」「リライト」「要約」「分類」「抽出」「その他」の10のユースケースに分類された。

②具体的な処理方法の記載

InstructGPTモデルのAPIプロンプトは、OpenAI API Playgroundを通じてユーザーから提供された。
APIユーザーにプロンプトが利用される際に、同意を得るために警告メッセージが表示され、これにより将来のモデルのトレーニングにプロンプトが使用されることが伝えられた。
プロジェクト開始時、Slackチャンネルでもこの情報が開示された。
フィルタリング: PIIを含むプロンプトは、トレーニングデータから除外された。
データの多様性の確保: プロンプトの重複を避けるため、長い共通の接頭辞を持つプロンプトは除外され、各組織ごとのプロンプト数は約200に制限された。
データ分割: 組織IDに基づいてトレーニング、検証、テストセットを作成。異なるデータセットには異なるユースケースを含めた。

③改良点・工夫点・テクニック等の記載

同意の取り方を工夫し、ユーザーにプロンプトのトレーニング利用についての警告メッセージをポップアップ表示させた。
データの多様性を確保するために、重複したプロンプトを除外し、組織ごとのプロンプト数を制限したこと。
組織IDに基づいてデータを分割し、異なるデータセットで異なるユースケースをカバーすることで、モデルの汎化性能を向上させたこと。

④メカニズムの解明・なぜそうなるのか等の記載

重複したプロンプトを除外することや、ユースケースの多様性を確保するための制限により、モデルが同一または類似のタスクに対して過学習することを防ぎ、多様なタスクに対して柔軟に対応できるようにしている。
組織IDに基づくデータ分割により、検証セットやテストセットに新しいユースケースが含まれることが保証され、モデルの評価がより包括的なものになる。

⑤性能が向上した記載

データの多様性と非重複性が確保されたことにより、InstructGPTモデルが様々なユースケースに対してより強力な一般化能力を発揮することが期待された。
組織ごとに200件のプロンプトに制限することで、特定の組織に偏らないトレーニングが実現されている。

⑥比較の記載

データ処理方法	特徴	効果
重複プロンプトの除外	長い共通の接頭辞を持つプロンプトを排除	プロンプトの多様性を確保
組織ごとのプロンプト数制限	約200に制限	特定の組織に偏らないデータ構成
組織IDによるデータ分割	トレーニング、検証、テストに分割	各セットが異なるユースケースを含む

解説: この表は、データ処理に関する手法の違いとその効果をまとめたものである。

⑦上記⑥以外で表に出来そうな部分

ユースケース	説明
生成	自由なテキスト生成タスク
オープンQA	開放的な質問応答タスク
クローズドQA	制限された質問応答タスク
ブレインストーミング	アイディアの発想を支援するタスク
チャット	会話形式の応答を伴うタスク
リライト	文章の書き換えや改良に関するタスク
要約	テキストの要約を行うタスク
分類	テキストの分類を行うタスク
抽出	特定の情報をテキストから抽出するタスク
その他	上記以外の様々なタスク

解説: この表は、APIユーザーが提供したプロンプトをユースケース別に分類し、それぞれの目的を説明している。

⑧具体的な数値の記載

数値	説明
200	組織ごとのプロンプト数制限
10	ユースケースの総数

⑨具体的な変数名の記載

該当なし。

⑩図/表があれば、各図/表は何を主張するためのものか

本文に図や表は含まれていない。

A.3 Dataset sizes

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) A.3 Dataset sizes In table 6, we report the sizes of datasets used to train / validate the SFT, RM, and RL models, in addition to whether the prompts were written by our labeling contractors or from our API. Table 6: Dataset sizes, in terms of number of prompts. SFT Data RM Data PPO Data split source size split source size split source size train labeler 11,295 train labeler 6,623 train customer 31,144 train customer 1,430 train customer 26,584 valid customer 16,185 valid labeler 1,550 valid labeler 3,488 valid customer 103 valid customer 14,399 For SFT, note that we have many more labeler-written prompts than customer prompts—this is because, at the start of the project, we had labelers write instructions with a user interface that asked them to give an overarching template instruction as well as few-shot examples for that instruction. We synthetically constructed multiple SFT datapoints from the same instruction by sampling different sets of few-shot examples. For the RM, recall that for every prompt, we collected rankings for K outputs (ranging from 4 to 9) and trained the model on all (K 2 ), so the number of ranked pairs we trained the model on is an order of magnitude larger than the number of prompts.

▼生成AIの回答(ChatGPT-4o)
①何についての記載か? + 要旨は何?

この節では、SFT（Supervised Fine-Tuning）、RM（Reward Model）、およびPPO（Proximal Policy Optimization）モデルのトレーニングおよび検証に使用されたデータセットのサイズについて説明している。これに加え、プロンプトがAPIユーザーまたはラベラーによって書かれたかの情報も提供している。

要旨

SFT、RM、PPOモデルのデータセットサイズを提示。
プロンプトは、ラベラーやAPIユーザーから提供されたものが使われた。
SFTではラベラーによって作成されたプロンプトが多数を占めており、同じ指示から複数のデータポイントが生成された。
RMでは、各プロンプトに対して複数の出力ランク付けを行い、大量のランク付けペアでトレーニングされた。

②具体的な処理方法の記載

SFTデータ: ラベラーが作成したプロンプトが多数使用され、特定の指示から複数のデータポイントを生成するために、少数の例から複数のプロンプトが合成された。
RMデータ: 各プロンプトに対して4～9個の出力がランク付けされ、そのランク付けペアを(K²)で生成し、モデルがこれらのペアでトレーニングされた。
PPOデータ: 主にAPIユーザーからのプロンプトを使用し、トレーニングと検証を実施した。

③改良点・工夫点・テクニック等の記載

SFTデータ生成の工夫: ラベラーによって提供された少数の例から、異なる少数ショット例をサンプリングして複数のSFTデータポイントを合成する手法を使用した。
RMデータの拡張: 各プロンプトに対して出力のランク付けペアを大規模に生成することで、データ数を増やし、モデルの精度向上を図った。

④メカニズムの解明・なぜそうなるのか等の記載

SFTデータの合成により、少量の元データから大量のトレーニングデータを効率的に生成し、モデルの汎化能力を向上させた。
RMデータのランク付けペアの生成により、モデルは出力の細かな順位付けに基づいてトレーニングされ、より高精度な出力を提供できるようになった。

⑤性能が向上した記載

RMデータの増加により、より多くのランク付けペアでトレーニングされ、モデルの性能が向上している。この点については、具体的な数値や図表は記載されていない。

⑥比較の記載

モデル	データソース	トレーニングサイズ	検証サイズ
SFT	ラベラー	11,295	1,550
SFT	APIユーザー	1,430	103
RM	ラベラー	6,623	3,488
RM	APIユーザー	26,584	14,399
PPO	APIユーザー	31,144	16,185

解説: この表は、各モデルのデータソースとトレーニングおよび検証サイズの違いを示している。

⑦上記⑥以外で表に出来そうな部分

データセット	データ生成の手法	説明
SFTデータ	ラベラーが提供したプロンプト	一つの指示から複数のデータポイントを生成
RMデータ	出力のランク付けペア (K²) に基づいて生成	複数の出力に対してランク付けし、ペアデータを生成
PPOデータ	APIユーザーが提供したプロンプト	APIユーザーから直接収集されたプロンプトを使用

解説: この表は、各データセットの生成手法とその説明をまとめている。

⑧具体的な数値の記載

数値	説明
11,295	ラベラーが提供したSFTトレーニングデータ数
1,430	APIユーザーが提供したSFTトレーニングデータ数
6,623	ラベラーが提供したRMトレーニングデータ数
26,584	APIユーザーが提供したRMトレーニングデータ数
31,144	APIユーザーが提供したPPOトレーニングデータ数
1,550	ラベラーが提供したSFT検証データ数
103	APIユーザーが提供したSFT検証データ数
3,488	ラベラーが提供したRM検証データ数
14,399	APIユーザーが提供したRM検証データ数
16,185	APIユーザーが提供したPPO検証データ数

⑨具体的な変数名(数式用の記号)の記載

該当なし。

⑩図/表があれば、各図/表は何を主張するためのものか

表6: SFT、RM、PPOモデルのトレーニングおよび検証に使用されたプロンプトの数とデータソースを示している。

A.4 Data diversity

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) A.4 Data diversity The data that we collect spans a wide range of categories and use cases. Table 1 shows the diversity of categories in our RM training and validation datasets as labeled by our contractors. The distribution of categories for the PPO datasets was similar. We additionally show a subset of our labeled prompt metadata in Table 7. Note that our annotation fields changed over the course of the project, so not every prompt was annotated for every field. We used a lightweight classifier (langid.py) to classify the language of all instructions in our dataset. Empirically, around 96% of our dataset (110k datapoints) is classified as English, although we estimate that the actual fraction may be 99% or higher, due to classifier inaccuracies. Besides English, a small minority of prompts were found in at least 20 other languages: Spanish, French, German, Portuguese, Italian, Dutch, Romanian, Catalan, Chinese, Japanese, Swedish, Polish, Danish, Turkish, Indonesian, Czech, Norwegian, Korean, Finnish, Hungarian, Hebrew, Russian, Lithuanian, Esperanto, Slovak, Croatian, Swahili, Estonian, Slovenian, Arabic, Thai, Vietnamese, Malayalam, Greek, Albanian, and Tibetan. Table 8 shows the average number of prompts each customer contributed to the dataset. In Table 9, we report descriptive statistics for prompt lengths (in tokens) used to train various models, and in Table 10 we break down token lengths by use case. Finally, we also report lengths of contractor-written demonstrations used for our SFT model in table 11, both for contractor-written and labeler-written prompts.

▼生成AIの回答(ChatGPT-4o)
①何についての記載か? + 要旨は何?

この節は、データセットの多様性について記述している。収集されたデータが幅広いカテゴリや使用例にわたり、多言語で構成されていることを説明している。また、データセットの言語分布やプロンプトのメタデータに関する統計情報も含まれている。

要旨

RMトレーニングおよび検証データセットのカテゴリの多様性を説明している。
収集されたプロンプトは、英語を含む多言語で構成されており、英語以外の20以上の言語も含まれている。
顧客ごとの平均プロンプト数やプロンプトの長さに関する統計が報告されている。

②具体的な処理方法の記載

データ分類: Langid.pyという軽量の分類器を使用して、データセット内の全ての指示を分類した。この分類器は、約96%のデータを英語として分類したが、実際にはその割合は99%を超えると見積もられている。
多言語プロンプト: 英語以外にも、スペイン語、フランス語、ドイツ語、日本語など20以上の言語が含まれている。

③改良点・工夫点・テクニック等の記載

軽量分類器の使用: データセットの言語分類にはLangid.pyという軽量な分類器を使用し、迅速に大量のデータを処理する工夫がされている。
プロンプトのメタデータ: プロジェクトの進行中にアノテーションフィールドが変更され、一部のプロンプトには全フィールドがアノテートされていないが、その多様性を保持しつつデータを収集している。

④メカニズムの解明・なぜそうなるのか等の記載

Langid.pyの分類精度: 分類器の誤差により、96%のデータが英語として分類されているが、実際の割合は99%を超えると推定されている。この精度の違いは、分類器のパフォーマンスと多言語データセットの複雑さに起因している。

⑤性能が向上した記載

なし。

⑥比較の記載

データセット	言語分布	顧客あたりの平均プロンプト数
RMデータセット	英語 96% (推定99%以上)	表8参照

解説: 表では、データセット内の言語分布と、顧客ごとの平均プロンプト数についての違いを示している。RMデータセットのほとんどが英語である一方、少数のプロンプトは他言語で構成されている。

⑦上記⑥以外で表に出来そうな部分

言語	分類された割合 (推定)
英語	96% (推定99%以上)
その他	20以上の言語が含まれる

解説: この表は、データセット内で分類された言語の割合と推定値を示している。

⑧具体的な数値の記載

数値	説明
96%	データセットに含まれる英語プロンプトの分類結果
110k	分類された全データポイント数
99%	実際に英語と推定されるデータポイントの割合
20以上	英語以外に含まれる言語の数

⑨具体的な変数名(数式用の記号)の記載

該当なし。

⑩図/表があれば、各図/表は何を主張するためのものか

表1: RMデータセット内のカテゴリの多様性を示している。これは、異なる種類のタスクに対してモデルがどのように学習するかを理解するために重要である。
表8: 顧客ごとの平均プロンプト数を示しており、データセットの分布と使用状況を理解するための資料である。
表9: 各モデルで使用されたプロンプトのトークン数に関する統計を示しており、モデルごとのプロンプト長の違いを把握するために使用される。

B Additional human data collection details

B.1 Labeler selection

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) B Additional human data collection details B.1 Labeler selection Our labelers consist of contractors hired either through Upwork, or sourced from Scale AI. Unlike previous work on RLHF that focused mostly on the summarization domain Ziegler et al. (2019); Stiennon et al. (2020); Wu et al. (2021), in this work we want humans to label a broad set of natural language prompts submitted to language models, some of which may be sensitive in nature. Thus, we conducted a screening process to select labelers who showed a high propensity to detect and respond to sensitive content. More specifically, from an initial pool of labeler candidates, we selected our training labelers according to the following criteria: 1. Agreement on sensitive speech flagging. We created a dataset of prompts and completions, where some of prompts or completions were sensitive (i.e. anything that could elicit strong negative feelings, whether by being toxic, sexual, violent, judgemental, political, etc.). We labeled this data for sensitivity ourselves, and measured agreement between us and labelers. 2. Agreement on rankings. We take prompts submitted to our API, and several model completions, and have labelers rank the completions by overall quality. We measure their agreement with researcher labels. 3. Sensitive demonstration writing. We created a small set of sensitive prompts, where responding to the outputs appropriately would require nuance. We then rated each demon- stration on a 1-7 Likert scale, and computed an average “demonstration score” for each labeler. 4. Self-assessed ability to identify sensitive speech for different groups. We wanted to select a team of labelers that had collectively were able to identify sensitive content in a broad range of areas. For legal reasons, we can’t hire contractors based on demographic criteria. Thus, we had labelers answer the question: “For what topics or cultural groups are you comfortable identifying sensitive speech?” and used this as part of our selection process. After collecting this data, we selected the labelers who did well on all of these criteria (we performed selections on an anonymized version of the data). Since the fourth criteria is subjective, we ultimately chose labelers subjectively according to these criteria, though we had soft cutoffs at 75% agreement on sensitive speech flagging and comparisons, and a 6/7 demonstration score.

▼生成AIの回答(ChatGPT-4o)
①何についての記載か? + 要旨は何?

この節では、データ収集に関わるラベラーの選定プロセスについて記載している。特に、ラベラーがセンシティブな内容に適切に対応できるかどうかを重視した選定基準が述べられている。

要旨

ラベラーはUpworkまたはScale AIから雇用された。
センシティブなプロンプトや応答を識別できるラベラーを選定するための選考基準を用いた。
選考基準には、センシティブな発言のフラグ付け、応答の順位付け、デモンストレーション作成のスコア評価、自己申告による能力の確認が含まれる。

②具体的な処理方法の記載

ラベラーの選定は以下の基準で行われた:

センシティブな発言のフラグ付けの一致度: プロンプトや応答の中でセンシティブな内容（有害な感情を引き起こす可能性のある発言、例：有毒、性的、暴力的、政治的な内容）を含むデータセットを作成し、研究者のラベリングとラベラーの一致度を測定した。
応答の順位付けの一致度: APIに送信されたプロンプトと、複数のモデル出力に対する応答をラベラーが順位付けし、その結果を研究者の順位付けと比較した。
センシティブなデモンストレーション作成: センシティブなプロンプトに適切に応答するデモをラベラーが作成し、Likertスケール(1-7)で評価し、ラベラーごとの平均スコアを計算した。
自己申告によるセンシティブな発言の識別能力の確認: 各ラベラーに「どのトピックや文化グループについてセンシティブな発言を識別できるか」を自己申告させ、選考の一部とした。

ラベラーの選定はこれらの基準に基づき行い、センシティブな発言のフラグ付けや応答の順位付けにおいて75%以上の一致度を持つ者、またはデモンストレーションスコアが6/7以上の者が選ばれた。

③改良点・工夫点・テクニック等の記載

センシティブ発言に対する選定基準の導入: ラベラー選定の際、単純な作業スキルだけでなく、センシティブな発言を適切に識別し、応答できる能力を重視した点が工夫されている。このため、センシティブなデモンストレーションの作成や、自己申告による確認が追加されている。
一致度測定: 研究者のラベルとラベラーのラベルとの一致度を数値で測定し、客観的な選考基準としている。

④メカニズムの解明・なぜそうなるのか等の記載

センシティブな発言のフラグ付けの重要性: モデルがセンシティブな発言に対応する能力を向上させるためには、まず人間がそのような内容を正確に識別できる必要があるため、ラベラー選定の基準に取り入れられた。
一致度の設定: ラベラーの選定プロセスにおいて、一致度が75%以上という客観的な基準を設けることで、品質の高いラベル付けが確保されている。

⑤性能が向上した記載

性能向上の記載はなし。

⑥比較の記載

基準項目	選定基準	パフォーマンス指標
センシティブな発言のフラグ付け	75%以上の一致度で選定	一致度(%)
応答の順位付け	研究者の順位付けと75%以上の一致度	一致度(%)
デモンストレーション作成スコア	Likertスケールで6/7以上のスコアを持つ者	スコア (1-7)
自己申告による能力の確認	主観的な申告に基づき、幅広いトピックでセンシティブな発言を識別できるかを評価	自己評価 (トピック)

解説: この表は、ラベラー選定における各基準項目とそれに対応するパフォーマンス指標を示している。

⑦上記⑥以外で表に出来そうな部分

ラベラー基準	説明
センシティブな発言のフラグ付け	発言が有毒、性的、暴力的、政治的かなど、センシティブな内容を識別する能力を評価
応答の順位付け	モデル出力の品質を評価し、適切な順位付けを行う能力を評価
デモ作成スコア	センシティブなプロンプトに対する適切な応答作成スキルをLikertスケールで評価

⑧具体的な数値の記載

数値	説明
75%	センシティブな発言のフラグ付けや順位付けの一致度基準
6/7	デモンストレーション作成スコアの基準
1-7	Likertスケールの範囲

⑨具体的な変数名(数式用の記号)の記載

該当なし。

⑩図/表があれば、各図/表は何を主張するためのものか

該当なし。

B.2 Labeling instructions

B.3 Labeler demographic data

B.4 Labeler satisfaction survey

B.5 Web interface

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) B.2 Labeling instructions The instructions we provided to labelers evolved over the course of the project, as we provided feedback, changed our metadata fields, and developed a better understanding of what we wanted to measure. We also amended instructions when they were confusing or inconsistent. Of particular note, during the labeling of our training data, we had labelers prioritize helpfulness to the user as the most important criteria (above truthfulness and harmlessness), whereas in our final evaluations we had labelers prioritize truthfulness and harmlessness. We are exploring research avenues for having the model sometimes prioritizing truthfulness and harmlessness over helpfulness during training, particularly through the use of refusals: having the model refuse to answer certain instructions. This comes with new challenges: different applications have different levels of risk, and thus we likely want what a model refuses to be configurable at inference time. Also, there is a risk that models could over-generalize and refuse innocuous instructions, which would be undesirable for most applications. We show excerpts of our instructions for our final evaluations on our prompt distribution in Table 10, and on the RealToxicityPrompts distribution in Table 11. B.3 Labeler demographic data We sent a voluntary, anonymous survey to our labelers to better understand their demographics. We show the results from the 19 respondents in Table 12. Overall, we find that our labelers are quite young (75% less than 35 years old), fairly balanced between male and female genders, and mostly come from the US or Southeast Asia. B.4 Labeler satisfaction survey In combination with our demographics survey, we also sent out a survey to obtain feedback on the task. We show the results from the 19 respondents in Table 13. Overall, our labelers enjoyed the task, thought they were paid fairly for their work, and shared that they appreciated the helpfulness and level of communication from the researchers. Some labelers did find the task repetitive, though others felt there was enough variation to keep things interesting and engaging. B.5 Web interface In Figure 12, we show screenshots of our labeling interface, that all of our labelers (and researchers) use to label data.

▼生成AIの回答(ChatGPT-4o)
①何についての記載か? + 要旨は何?

この節では、ラベリング作業に関する指示の進化、ラベラーの人口統計データ、満足度調査、ラベリングインターフェースに関する詳細が記載されている。

要旨

ラベリングの指示はプロジェクト進行中に進化し、最初は「ユーザーにとっての有用性」を最優先していたが、最終評価では「真実性」と「無害性」を優先するよう指示が変更された。
ラベラーの人口統計データを取得し、その結果が表形式で示されている。
ラベラーの満足度に関する調査結果が示されており、全体的にはラベラーはタスクに満足していた。
ラベリング作業に使用されたウェブインターフェースのスクリーンショットが提供されている。

②具体的な処理方法の記載

ラベリング指示の変更: プロジェクトの進行に伴い、ラベラーへの指示が変化した。当初のラベリング作業では、ユーザーにとっての「有用性」を最優先していたが、最終評価段階では「真実性」と「無害性」が優先されるようになった。また、特定の応答に対してモデルが回答を拒否することを検討しており、リスクの高い応答に対しては柔軟に対応するような仕組みが構築される予定である。
人口統計データの収集: ラベラーに対して自主的で匿名のアンケートを実施し、年齢、性別、国籍などのデータを収集した（表12に結果を掲載）。
ラベラー満足度調査: ラベラーの満足度に関する調査も実施され、19名からの回答が得られた。ラベラーは全般的にタスクに満足しており、報酬や研究者からのコミュニケーションも評価されている一方、一部のラベラーはタスクの単調さを感じていた（表13に結果を掲載）。
ウェブインターフェースの使用: ラベリングには専用のウェブインターフェースが使用されており、そのスクリーンショットが図12で示されている。

③改良点・工夫点・テクニック等の記載

指示の進化: 初期の指示では「有用性」が最優先されていたが、最終評価段階では「真実性」と「無害性」を重視するよう指示が変更された。この点はプロジェクトの進行に伴う改善点である。
応答拒否機能の検討: モデルが特定のリスクのある応答を拒否することを検討しているが、応答拒否が過剰に一般化されてしまうリスクも認識されている。

④メカニズムの解明・なぜそうなるのか等の記載

指示の進化: 当初は「ユーザーに対する有用性」を重視していたが、最終的には「真実性」や「無害性」を優先することで、誤った情報や有害な内容を提供するリスクを軽減し、より安全なモデル出力を目指すためである。
応答拒否のメカニズム: モデルがリスクのある応答を拒否することで、特定のアプリケーションにおけるリスクを軽減することが期待されるが、これが過剰に適用されると、無害な指示にも過剰に反応してしまうリスクがある。

⑤性能が向上した記載

性能向上に関する具体的な記載はなし。

⑥比較の記載

ラベリング段階	優先された基準	説明
初期ラベリング指示	ユーザーに対する「有用性」を最優先	プロンプトに対して有用な応答を返すことを重視していた。
最終評価指示	「真実性」と「無害性」を優先	真実性と無害性を最重要視し、誤情報や有害な内容を防ぐことを目的とした。

解説: この表では、初期のラベリング段階と最終評価段階において、優先された基準が異なる点を示している。

⑦上記⑥以外で表に出来そうな部分

調査項目	結果の要約
ラベラーの年齢分布	ラベラーの75%が35歳未満。
性別分布	性別は男性と女性がほぼ均等に分布している。
ラベラーの地域分布	主に米国または東南アジア出身。
ラベラーの満足度	ラベラーはタスクに満足しており、報酬や研究者からのコミュニケーションを高く評価している。

⑧具体的な数値の記載

数値	説明
75%	ラベラーの75%が35歳未満。
19	満足度調査に回答したラベラーの人数。
12	ラベラーの人口統計データの表番号 (表12)。
13	ラベラー満足度調査の表番号 (表13)。

⑨具体的な変数名(数式用の記号)の記載

該当なし。

⑩図/表があれば、各図/表は何を主張するためのものか

表12: ラベラーの人口統計データを示しており、年齢、性別、地域に関する情報がまとめられている。
表13: ラベラー満足度に関する結果を示しており、タスクへの満足度や報酬、研究者とのコミュニケーションに対する評価が含まれている。
図12: ラベラーが使用したウェブインターフェースのスクリーンショットを示しており、ラベリング作業がどのように行われたかを視覚的に確認できる。

C Additional model details

C.1 Details of SFT training

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) C Additional model details All model architectures use the GPT-3 architecture (Brown et al., 2020). For the reward models and value functions, the unembedding layer of the original model is replaced with a projection layer to output a scalar value. All models use fp16 weights and activations, with fp32 master copies of weights. The same byte pair encodings as in Brown et al. (2020) are used for all models. All our language models and RL policies have a context length of 2k tokens. We filter out prompts that are longer than 1k tokens and limit the maximum response length to 1k tokens. All models are trained with the Adam optimizer, with β1 = 0.9 and β2 = 0.95. C.1 Details of SFT training We train our SFT models for 16 epochs with residual dropout of 0.2. We use a cosine LR schedule down to 10% of the original learning rate, with no learning rate warmup. For our 1.3B and 6B models, we use an LR of 9.65e-6 and a batch size of 32. For 175B, we use a LR of 5.03e-6 and a batch size of 8. To select learning rates, we did a geometric search over 7 LRs for 1.3B and 6B, and 5 LRs for 175B. We also tuned the number of epochs using geometric search. Our final models were selected based on the RM score, which we’ve found to be more predictive of human preference results compared to validation loss.

▼生成AIの回答(ChatGPT-4o)
①何についての記載か? + 要旨は何?

この節では、GPT-3ベースのモデルアーキテクチャの詳細、報酬モデルと価値関数の構築、SFT（Supervised Fine-Tuning）モデルのトレーニング手法について説明されている。

要旨

全モデルはGPT-3アーキテクチャを使用しており、報酬モデルと価値関数のために元のモデルのunembedding layerをプロジェクション層に置き換え、スカラー値を出力するようにしている。
全モデルはfp16重みとアクティベーションを使用し、fp32のマスターコピーも保持している。
Adamオプティマイザーを使用してトレーニングを行い、異なるモデルに対して異なる学習率とバッチサイズが採用されている。
SFTトレーニングには16エポックを用い、コサインスケジュールで学習率を調整している。最終モデルはRMスコアに基づいて選定された。

②具体的な処理方法の記載

モデルアーキテクチャ: GPT-3のアーキテクチャを基にしており、報酬モデルと価値関数のためにunembedding layerをスカラー値を出力するプロジェクション層に置き換えている。全モデルはfp16重みとアクティベーションを使用し、fp32のマスターコピーを保持する。バイトペアエンコーディング（BPE）もBrownらの手法に従い使用している。
コンテキスト長とプロンプトフィルタリング: すべての言語モデルとRLポリシーは2kトークンのコンテキスト長を持ち、プロンプトが1kトークンを超えた場合はフィルタリングされ、応答も1kトークンに制限されている。
トレーニングの設定: Adamオプティマイザー（β1 = 0.9、β2 = 0.95）を使用し、異なる学習率（LR）とバッチサイズでトレーニングを行っている。SFTモデルは16エポックでトレーニングされ、残差ドロップアウト0.2が使用されている。学習率はコサインスケジュールを使用し、ウォームアップなしで10%まで減少する。

③改良点・工夫点・テクニック等の記載

報酬モデルと価値関数の出力層: unembedding layerをプロジェクション層に置き換えることで、報酬や価値をスカラー値として出力できるようにしている。この工夫は報酬モデルと価値関数を効果的に動作させるために必要である。
fp16の使用: fp16を使用し、fp32のマスターコピーを保持することで、メモリ使用量を抑えつつ高精度な計算を実現している。
SFTの学習率スケジュール: コサインLRスケジュールを使用し、学習率が10%まで徐々に減少するようにしている。また、学習率の選定には幾何的な検索手法を採用している。

④メカニズムの解明・なぜそうなるのか等の記載

unembedding layerの置き換え: 報酬モデルと価値関数において、スカラー値を出力するためには元のunembedding layerでは不適切なため、プロジェクション層に置き換えている。これにより、モデルが報酬や価値を適切にスカラー値で表現できる。
コサインスケジュールの使用: コサインスケジュールにより、学習率を徐々に減少させることで過学習を防ぎつつ、安定した学習を実現している。

⑤性能が向上した記載

RMスコアの使用: 最終モデルはRM（Reward Model）スコアに基づいて選定されており、これは検証損失よりも人間の好みをよりよく予測できることが確認されている。

⑥比較の記載

モデルサイズ	学習率 (LR)	バッチサイズ (BS)	エポック数	学習率スケジュール
1.3B	9.65e-6	32	16	コサインLRスケジュール
6B	9.65e-6	32	16	コサインLRスケジュール
175B	5.03e-6	8	16	コサインLRスケジュール

解説: 各モデルの学習率、バッチサイズ、エポック数の違いを表にまとめており、モデルサイズに応じて学習率やバッチサイズが異なることが確認できる。

⑦上記⑥以外で表に出来そうな部分

該当なし。

⑧具体的な数値の記載

数値	説明
2k	言語モデルとRLポリシーのコンテキスト長
1k	フィルタリングされるプロンプトのトークン数、および最大応答トークン数
0.9	Adamオプティマイザーのβ1値
0.95	Adamオプティマイザーのβ2値
16	SFTモデルのエポック数
0.2	残差ドロップアウトの割合
9.65e-6	1.3Bおよび6Bモデルの学習率
5.03e-6	175Bモデルの学習率
32	1.3Bおよび6Bモデルのバッチサイズ
8	175Bモデルのバッチサイズ

⑨具体的な変数名(数式用の記号)

変数名	説明
β1	Adamオプティマイザーの第1モーメント推定パラメータ
β2	Adamオプティマイザーの第2モーメント推定パラメータ
LR	学習率
BS	バッチサイズ
RM	Reward Modelスコア

⑩図/表があれば、各図/表は何を主張するためのものか

該当なし。

C.2 Details of RM training

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) C.2 Details of RM training We trained a single 6B reward model which we used for all PPO models of all sizes. Larger 175B RMs had the potential to achieve lower validation loss, but (1) their training was more unstable which made them less suitable for use as initializations for the PPO value functions, and (2) using a 175B RM and value function greatly increase the compute requirements of PPO. In preliminary experiments, we found that 6B RMs were stable across a wide range of learning rates, and led to equally strong PPO models. The final reward model was initialized from a 6B GPT-3 model that was fine-tuned on a variety of public NLP datasets (ARC, BoolQ, CoQA, DROP, MultiNLI, OpenBookQA, QuAC, RACE, and Winogrande). This was mostly for historical reasons; we find similar results when initializing the RM from the GPT-3 or SFT models. We trained for a single epoch over the full reward model training set (see Table 6) at a learning rate of lr = 9e-6, a cosine learning rate schedule (dropping to 10% of its initial value by the end of training), and a batch size of 64. Training did not appear to be very sensitive to the learning rate or schedule; changes of up to 50% in the learning rate resulted in similar performance. Training was quite sensitive to the number of epochs: multiple epochs quickly overfit the model to the training data with obvious deterioration in the validation loss. The batch size here represents the distinct number of prompts per batch. Each prompt had between K = 4 and K = 9 labeled completions, from which there were up to (K 2 ) possible comparisons. Ties were dropped. Therefore, a single batch could contain up to 64 × (K 2 ) ≤ 2,304 comparisons.

▼生成AIの回答(ChatGPT-4o)
①何についての記載か? + 要旨は何?

この節では、6Bの報酬モデル（RM）のトレーニング詳細と、PPOモデルのトレーニングにおけるRMの使用について説明されている。

要旨

すべてのPPOモデルに対して単一の6B報酬モデルをトレーニングした。
175BのRMは低い検証損失を達成できるが、トレーニングが不安定で、計算コストも大幅に増加するため6Bモデルが使用された。
6Bの報酬モデルは学習率の範囲で安定しており、同様に強力なPPOモデルを導いた。
RMはGPT-3モデルを元に初期化され、いくつかの公開NLPデータセットでファインチューニングされた。
学習率やスケジュールには敏感でなかったが、エポック数に敏感であり、複数エポックでは過学習が生じた。

②具体的な処理方法の記載

報酬モデルのサイズとトレーニング設定: 単一の6B報酬モデルを全てのPPOモデルに対して使用した。学習率は9e-6、バッチサイズは64、コサイン学習率スケジュールを用いた。この学習率スケジュールでは、最終的に初期値の10%まで学習率が減少する。
データセットとプロンプト設定: RMは、ARC、BoolQ、CoQA、DROP、MultiNLI、OpenBookQA、QuAC、RACE、Winograndeといった公開NLPデータセットでファインチューニングされたGPT-3モデルを元に初期化された。各バッチには64個の異なるプロンプトが含まれており、各プロンプトには4～9個のラベル付き補完があった。
比較プロセス: 各プロンプトに対して(K²)の比較が可能であり、タイは除外された。バッチあたり最大2,304の比較が可能であった。

③改良点・工夫点・テクニック等の記載

6B報酬モデルの安定性: 175Bの報酬モデルは低い検証損失を達成できたが、トレーニングが不安定で、PPOの初期化として適していなかったため、より安定して計算コストも低い6Bモデルが使用された。この選択はPPOモデルのトレーニングにおいても有効であった。
エポック数の調整: トレーニングはエポック数に非常に敏感で、複数エポックを使用するとすぐに過学習が発生し、検証損失が悪化した。そのため、1エポックでトレーニングを終了する工夫がされた。

④メカニズムの解明・なぜそうなるのか等の記載

6B報酬モデルの選択: 6Bの報酬モデルは、異なる学習率に対して安定しており、同様に強力なPPOモデルを導いた。一方で、175BのRMはトレーニングが不安定で、計算リソースの観点からも6Bモデルが最適であった。

⑤性能が向上した記載

6B RMは異なる学習率範囲においても安定しており、同様に強力なPPOモデルをトレーニングできた。

⑥比較の記載

モデルサイズ	検証損失	安定性	計算コスト
6B	中	高い	低い
175B	低	不安定	高い

解説: 6Bモデルと175Bモデルの検証損失、安定性、計算コストの違いを示しており、6BモデルがPPOトレーニングにおいて最適な選択であることが確認できる。

⑦上記⑥以外で表に出来そうな部分

各プロンプトごとの比較数

プロンプトごとの補完数 (K)	最大比較数 (K²)	バッチ当たりの最大比較数 (64×K²)
4	16	1,024
5	25	1,600
6	36	2,304
7	49	2,304
8	64	2,304
9	81	2,304

⑧具体的な数値の記載

数値	説明
6B	報酬モデルのサイズ
175B	検討されたが使用されなかった報酬モデルのサイズ
9e-6	報酬モデルの学習率
1	報酬モデルのエポック数
64	バッチサイズ（プロンプト数）
4～9	各プロンプトのラベル付き補完数
2,304	バッチあたりの最大比較数
50%	学習率変化に対しての許容範囲
10%	コサインスケジュールにおける最終的な学習率の割合

⑨具体的な変数名(数式用の記号)

変数名	説明
K	各プロンプトに対するラベル付き補完の数
(K²)	プロンプトごとの比較数
lr	学習率

⑩図/表があれば、各図/表は何を主張するためのものか

該当なし。

「⑦上記⑥以外で表に出来そうな部分」のK²、64×K²の列の数値は間違い。K²で勝手に計算されている。K²ではなく${}_K C_2$が正しい。

「⑨具体的な変数名」のK²は間違い。K²ではなく${}_K C_2$が正しい。

C.3 Details of the initialization models for RLHF

C.4 Details of RLHF training

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) C.3 Details of the initialization models for RLHF We initialize the RLHF models from a pretrained GPT-3 model and apply supervised fine-tuning for 2 epochs on the demonstration dataset. We also mix in 10% pretraining data during fine-tuning, since we find it helpful for PPO training (see Appendix E.11 for details). Cosine learning rate schedule is used and the learning rate eventually decays to 10% of the peak learning rate. We use a batch size of 32 for 1.3B and 6B models and 8 for the 175B model. We compare a few different peak learning rates for each model and pick the one with low losses on both the demonstration and the pretraining validation datasets. A log linear sweep of 5 values of the LR’s are compared for 1.3B and 6B models and 3 values are compared for the 175B model. The resultant LR’s for the 1.3B, 6B, and 175B models are 5e-6, 1.04e-5 and 2.45e-6, respectively. C.4 Details of RLHF training We then initialize the RL policies from the above supervised fine-tuned models with pretraining mix. These models are also used to compute the KL reward, in the same way as Stiennon et al. (2020), with β = 0.02 (see Equation 2). We train all the RL models for 256k episodes. These episodes include about 31k unique prompts, after filtering out prompts with PII and deduplication based on common prefixes. The batch size for each iteration is 512, with a minibatch size of 64. In other words, each batch is randomly split into 8 minibatches and is trained on for only a single inner epoch (Schulman et al., 2017). A constant learning rate is applied with a warmup over the first 10 iterations, starting with one tenth of the peak learning rate. Exponential moving averages of the weights are applied, with a decay rate of 0.992. No discount is applied when estimating the generalized advantage (Schulman et al., 2016). The PPO clip ratio is set to 0.2, and the sampling temperature is 1 for rollouts. As previously mentioned, for all PPO models we use a 6B RM and a 6B value function, and the latter is initialized from the former. By using the same 6B reward model and value function on policies of all model sizes, it’s easier to compare the effect of policy model size on policy performance. A fixed learning rate of 9e-6 for the value function is used for 1.3B and the 6B policies and 5e-6 for the 175B policy. Our initial RLHF experiments showed regressions on public NLP datasets, such as SQuADv2 and DROP, and we mitigate the regressions by mixing in pretraining gradients during PPO training. We use 8 times more pretraining examples than the number of the RL training episodes. The pretraining data is randomly drawn from the dataset used to train the GPT-3 models. For each minibatch, we compute the PPO gradients and pretraining gradients in consecutive steps and accumulate them both into the gradient buffers. We multiply the pretraining gradients by a coefficient, γ = 27.8 (see Equation 2), to control the relative strength of gradients from PPO and pretraining distributions.

▼生成AIの回答(ChatGPT-4o)
①何についての記載か? + 要旨は何?

この節では、RLHF（Reinforcement Learning with Human Feedback）モデルの初期化およびトレーニング手法について説明している。

要旨

RLHFモデルは事前学習済みのGPT-3モデルから初期化され、デモンストレーションデータセットで2エポックの教師あり微調整が行われた。
微調整の際に、PPOトレーニングを効果的に進めるため、事前学習データの10%を混合して使用。
各モデルの最適な学習率はログ線形スイープを使用して選定され、1.3B、6B、175Bモデルにそれぞれ異なる学習率が設定された。
RLHFトレーニングは、256kエピソードにわたって実施され、31kの一意のプロンプトが使用された。
ポリシーモデルのサイズの影響を比較するため、すべてのPPOモデルに対して6Bの報酬モデルと価値関数が使用された。
事前学習の勾配をPPOトレーニングに組み込むことで、公開NLPデータセットに対する性能の低下（リグレッション）を緩和した。

②具体的な処理方法の記載

RLHFモデルの初期化: GPT-3モデルから初期化されたRLHFモデルは、デモンストレーションデータセットに対して2エポックの教師あり微調整を受けた。微調整時には、全体の10%にあたる事前学習データも使用された。最適な学習率を決定するため、1.3Bおよび6Bモデルにはログ線形スイープを用いて5つの異なる学習率を比較し、175Bモデルには3つの学習率が比較された。結果として1.3Bモデルには5e-6、6Bモデルには1.04e-5、175Bモデルには2.45e-6の学習率が使用された。
RLHFトレーニングの詳細: RLポリシーは、教師あり微調整済みモデルから初期化された。トレーニングは256kエピソードにわたり、31kの一意のプロンプトが使用された。各バッチサイズは512で、これを64のミニバッチに分割し、それぞれが単一の内エポックでトレーニングされた。学習率は固定で、最初の10回のイテレーションでウォームアップが行われ、ピーク学習率の1/10からスタートした。さらに、PPO勾配と事前学習勾配をそれぞれ連続して計算し、バッファに積み重ねる形で勾配を更新した。

③改良点・工夫点・テクニック等の記載

事前学習データの混合: PPOトレーニングにおいて、事前学習データの勾配を混合することが効果的であることがわかり、RLトレーニング中に8倍の事前学習データを使用した。
PPOトレーニングの最適化: 事前学習勾配を用いて公開NLPデータセット（SQuADv2、DROP）でのリグレッションを緩和するため、γ=27.8の係数でPPO勾配と事前学習勾配の相対的な強度を制御した。

④メカニズムの解明・なぜそうなるのか等の記載

事前学習データの効果: 事前学習データをRLトレーニング中に混合することで、PPOトレーニング中に発生する可能性のある公開NLPデータセットでのリグレッションを防止できる。事前学習データの導入により、モデルが特定のRLタスクに過度に適応し過ぎるのを防ぐためである。

⑤性能が向上した記載

事前学習の勾配を混合することで、SQuADv2やDROPといった公開NLPデータセットでの性能低下を防いだ。

⑥比較の記載

モデルサイズ	学習率	バッチサイズ	ミニバッチサイズ	エピソード数
1.3B	5e-6	32	該当なし	該当なし
6B	1.04e-5	32	該当なし	該当なし
175B	2.45e-6	8	該当なし	該当なし
すべてのモデル	固定値でない	512	64	256k

解説: 各モデルのサイズに応じた学習率やバッチサイズ、エピソード数などの違いをまとめた。最適な学習率の選定は、モデルサイズに応じて異なる。

⑦上記⑥以外で表に出来そうな部分

ポリシーモデルサイズごとの報酬モデル・価値関数

モデルサイズ	報酬モデルのサイズ	価値関数のサイズ
1.3B	6B	6B
6B	6B	6B
175B	6B	6B

⑧具体的な数値の記載

数値	説明
5e-6	1.3Bモデルの学習率
1.04e-5	6Bモデルの学習率
2.45e-6	175Bモデルの学習率
10%	コサインスケジュールにおける最終的な学習率の割合
512	バッチサイズ
64	ミニバッチサイズ
256k	RLHFトレーニングのエピソード数
31k	使用された一意のプロンプト数
0.02	KL報酬のβ値（Stiennonら2020年の手法に基づく）
γ=27.8	PPO勾配と事前学習勾配の相対的な強度を制御する係数

⑨具体的な変数名(数式用の記号)

変数名	説明
β	KL報酬の強度を制御する係数
γ	PPOと事前学習の勾配強度を制御する係数

⑩図/表があれば、各図/表は何を主張するためのものか

該当なし。

「⑦上記⑥以外で表に出来そうな部分」の表の「報酬モデルのサイズ」「価値関数のサイズ」の2列に分けて書かれてあるが、間違い。同じものになる。

C.5 FLAN and T0 models

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) C.5 FLAN and T0 models We obtain our FLAN and T0 baselines by fine-tuning a 175B GPT-3 model on the FLAN and T0 datasets. For T0, note that we trained on the T0++ version of the dataset. Because T0 contains much more data (96M datapoints) than FLAN (1.2M datapoints), we subsampled T0 to 1 million datapoints to make the amount of training data comparable for each model. Note that the original models train on epochs where datapoints can be repeated, but in our epochs we go through every datapoint without repeats (to better match the way we trained our SFT baselines). We applied a cosine learning rate schedule, and try initial learning rates of 4e-6 and 6e-6 for each dataset. The learning rate decays to 10% of its peak at the end of training, and we use a batch size of 64 for both experiments. To choose the best FLAN checkpoint, we use our 6B reward model to score the completions on the validation set of prompts. As shown in Figure 13, the reward saturates after the initial 400k examples of training. This indicates that training for even longer will unlikely improve the human eval performance. We picked the checkpoint with the highest RM score for our human evaluation, which is the one trained with learning rate of 4e-6 and for 896k examples. We perform two similar experiments to find the best T0 checkpoint. In one experiment, we used a batch size of 128, a learning rate of 4e-6 and 1.28 million examples. The other experiment used a batch size of 64, a learning rate of 6e-6 and 1 million examples. Once again using the reward model score, we picked the checkpoint from the former experiment after 896k examples of training.

▼生成AIの回答(ChatGPT-4o)
①何についての記載か? + 要旨は何?

FLANとT0モデルのベースラインに関する記載である。
175B GPT-3モデルをFLANおよびT0データセットでファインチューニングした実験を説明している。
データセットの量が異なるため、T0データセットを1MデータポイントにサンプリングしてFLANと比較可能なトレーニングを行った。
コサイン学習率スケジュールを使用し、各データセットに対して異なる学習率(4e-6, 6e-6)を試みた。
6B報酬モデルを使用して検証セットでの完了タスクを評価し、最も高い報酬モデルスコアを持つチェックポイントを選択した。

②具体的な処理方法の記載

モデルの初期化: 175B GPT-3モデルを使用。
データセットの扱い: FLANは1.2Mデータポイント、T0は96Mデータポイントを持つが、T0は1Mデータポイントにサンプリングされた。
エポック構成: データポイントが繰り返されることなく、すべてのデータポイントを通過する形でトレーニング。
学習率スケジュール: コサインスケジュールを適用し、最終的に学習率はピークの10%に減衰。初期学習率として4e-6と6e-6を試行。
バッチサイズ: FLANとT0の両方でバッチサイズは64。
チェックポイント選択: 6B報酬モデルを使用して、検証セットのプロンプトでの完了タスクをスコア付けし、RMスコアが最高のチェックポイントを選択。

③改良点・工夫点・テクニック等の記載

大量のデータを扱うT0のデータセット量を、FLANに合わせるために1Mにサブサンプリングした点が工夫である。
データポイントを繰り返さない方法でエポックを設定したことも、元のSFTベースラインの方法に合わせるための工夫である。

④メカニズムの解明・なぜそうなるのか等の記載

6Bの報酬モデルを使用してFLANとT0の検証セットを評価し、訓練が進むにつれて報酬モデルスコアが飽和する現象が見られる。このため、一定の学習ステップ（896k例）を超えて訓練を続けても、人間による評価の性能が向上しないことが示唆されている。

⑤性能が向上した記載

学習ステップが896k例を超えた時点で、報酬モデルスコアが飽和し、それ以上の訓練が人間評価の性能向上に寄与しないことが示されている。この結果は、最適なチェックポイントを見つけるための学習データ量を示すものである（図13）。

⑥比較の記載

モデル	学習率	バッチサイズ	訓練データ量	チェックポイント選択方法	RMスコアが飽和する例数
FLAN	4e-6	64	896k	6B報酬モデルスコア	400k
T0	4e-6	128	1.28M	6B報酬モデルスコア	896k
T0	6e-6	64	1M	6B報酬モデルスコア	896k

⑦上記⑥以外で表に出来そうな部分

なし。

⑧具体的な数値の記載

数値	説明
175B	GPT-3モデルのパラメータ数
1.2M	FLANデータセットのデータポイント数
96M	T0データセットのデータポイント数
1M	T0のサブサンプルされたデータ量
4e-6	試行された学習率の一つ
6e-6	試行された学習率の一つ
64	FLANおよびT0のバッチサイズ
128	もう一つのT0バッチサイズ
400k	FLANでRMスコアが飽和する訓練データ量
896k	最適なチェックポイントを見つけた訓練データ量
1.28M	T0で試行された訓練データ量

⑨具体的な変数名(数式用の記号)

変数名	説明
RM	報酬モデル
LR	学習率

⑩図/表があれば、各図/表は何を主張するためのものか

図13: FLANおよびT0での報酬モデルスコアの推移を示し、訓練例が400kを超えるとFLANの報酬スコアが飽和することを示している。これにより、過度な訓練が性能向上に寄与しないことを示唆している。

▼質問(人間)
175B GPT-3モデルをFLANおよびT0データセットでファインチューニングしたのはなぜか? 何用途?

▼生成AIの回答(ChatGPT-4o)
175B GPT-3モデルをFLANおよびT0データセットでファインチューニングした理由は、モデルの性能向上とタスク固有の適応を目的としている。具体的には、FLANとT0は異なる指示形式のタスクに対して高いパフォーマンスを発揮するように設計されているデータセットであり、これらを使用することで、GPT-3の指示追従能力や一般的な自然言語処理タスクにおける応答性能を向上させることが期待されている。

用途としては、タスク指示に基づく自然言語処理タスク（例えば、質問応答、テキスト生成、要約など）に対して、より正確かつ効率的な応答を得ることを目的としている。特に、T0はゼロショット推論タスクに強みを持ち、FLANは多様な指示形式に対応できる能力があるため、これらのデータセットを用いてファインチューニングすることで、GPT-3モデルの適応力を強化し、多用途な自然言語タスクに対応可能なモデルを構築することが狙いである。

Appendixには用途の内容が書かれていないが、生成AIが推測して回答している。不適。

論文の本文中では、Figure 5等で、PPO-ptx(提案)モデルと、好み度を比較するために使用されている。

D Automatic evaluation details

D.1 Toxicity and bias evaluation details

D.2 Prompt structure and evaluation features for each eval dataset

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) D Automatic evaluation details We perform automatic evaluations on the following benchmark datasets: Winogender (Rudinger et al., 2018), CrowS-Pairs (Nangia et al., 2020), RealToxicityPrompts (Gehman et al., 2020), TruthfulQA (Lin et al., 2021), DROP (Dua et al., 2019), QuAC (Choi et al., 2018), SquadV2 (Rajpurkar et al., 2018), Hellaswag (Zellers et al., 2019), SST (Socher et al., 2013), RTE and WSC (both part of Super- GLUE (Wang et al., 2019)), WMT 15 Fr → En (Bojar et al., 2015), CNN/Daily Mail Summarization (Nallapati et al., 2016), and Reddit TLDR Summarization (Völske et al., 2017). All tasks take a similar form: they (optionally) begin with an instruction that is common to all queries in the task; they then contain context for each query; and they end with a completion that is either sampled from the model or chosen from one of multiple choices. All model sampling is performed at temperature T = 0 and truncated at the first newline. Multiple choice answers are picked according to which one has the lowest average per-token log probability at T = 1. When a prompt contains few-shot examples, it maintains the same format for the few-shot examples as it does for the final query. D.1 Toxicity and bias evaluation details For bias and toxicity measurements, we show results with three different choices of instruction, corresponding to three different prompt types: a basic prompt (no instruction), a respectful prompt, and a biased prompt. The respectful and biased instructions are as follows: respectful Complete the following sentence in a polite, respectful, and unbiased manner: biased Complete the following sentence using maximally biased and offensive language: For bias tasks, we report the average entropy of each choice. The entropy, measured in bits, shows the certainty with which a model makes its choices. It is given by H = − ∑ i∈choices Pi log2 Pi, where∑ Pi = 1 and each Pi is proportional to the total probability the model assigns to that completion. Maximum entropy for binary choices is 1. High entropy indicates that the model is unsure of which choice to take, or, equivalently, that it is unbiased and has no preference among the available options. D.2 Prompt structure and evaluation features for each eval dataset In this section we describe the prompting structure, as well as other dataset features such as number of validation examples and performance metric, for each automatic evaluation task. These are shown in Table 14-25.

▼生成AIの回答(ChatGPT-4o)
①何についての記載か? + 要旨は何?

この節では、自動評価と、バイアスやトキシシティ（毒性）に関する評価手法について記載されている。要旨は以下の通りである。

自動評価は複数のベンチマークデータセットを用いて実施された。
評価されたデータセットには、バイアスやトキシシティの評価を行うための指示付きプロンプトも含まれる。
各モデルの応答はサンプリングやログ確率に基づいて評価された。
バイアス評価では、異なるプロンプトを使用してモデルの選択に対する不確実性（エントロピー）を測定した。
データセットごとのプロンプト構造と評価手法も詳述されている。

②具体的な処理方法の記載

評価は、Winogender、CrowS-Pairs、RealToxicityPrompts、TruthfulQA、DROP、QuAC、SquadV2、Hellaswag、SST、RTE、WSC、WMT 15 Fr → En、CNN/Daily Mail Summarization、Reddit TLDR Summarizationなどのデータセットを用いて行われている。
各タスクの形式は、タスクごとに異なる指示を開始部分に含み、その後クエリのコンテキストを提示し、モデルの完了応答をサンプリングまたは選択する形となる。
応答は、温度T=0でサンプリングし、最初の改行でトランケートされる。多項選択問題では、T=1でトークンごとのログ確率が最も低いものが選択される。
バイアスやトキシシティ評価では、基本的なプロンプト、礼儀正しいプロンプト、偏見のあるプロンプトを使用し、モデルの応答に基づくエントロピーを計算した。
エントロピーはモデルが選択をする際の確実性を示し、エントロピーが高いほど、モデルがどの選択をするかについて確信がないことを意味する。

③改良点・工夫点・テクニック等の記載

各評価タスクに対して、タスク固有のプロンプト構造と評価方法を導入することで、モデルの性能をより正確に評価している。
バイアス評価において、異なる種類の指示を与えることで、モデルの応答の多様性やエントロピーを計測する手法を工夫している。
各タスクで使用されるプロンプト形式に一貫性を持たせ、few-shotの例を含む場合は、クエリと同じ形式で提示されるよう調整されている。

④メカニズムの解明・なぜそうなるのか等の記載

バイアス評価におけるエントロピーの高低は、モデルのバイアスの度合いを示している。高いエントロピーは、モデルが特定の選択に偏らず、どの選択肢にも確信がない状態であることを意味するため、バイアスが少ないモデルと解釈される。

⑤性能が向上した記載

性能向上に関する具体的な記載は無し。

⑥比較の記載

比較に関する記載は無し。

⑦上記⑥以外で表に出来そうな部分

表に出来そうな部分は無し。

⑧具体的な数値の記載

数値	説明
T=0	応答をサンプリングする際の温度設定
T=1	ログ確率を計算する際の温度設定
1	バイアス評価での最大エントロピー

⑨具体的な変数名(数式用の記号)の記載

変数名	説明
H	エントロピー（モデルの選択に対する確実性を示す）
Pi	選択肢iに対するモデルの割り当てる確率

⑩図/表があれば、各図/表は何を主張するためのものか

図表の具体的な参照は無し。

E Additional results

E.1 Performance on public NLP datasets

E.2 Reward model generalization across sets of labelers

E.3 Metadata results as a function of model size

E.4 Likert scores

E.5 Measuring bias

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) E Additional results E.1 Performance on public NLP datasets We run automatic evaluation tasks on our models that collectively measure bias, toxicity, truthfulness, and a variety of natural language capabilities. The results of these evaluations are in Table 14. We show zero-shot performance of our models in Figure 28, and few-shot performance in Figure 29. We can see that the PPO model without pretraining mix has performance regressions on many datasets, particularly in the few-shot setting, and that these regressions are mitigated by our PPO-ptx model. E.2 Reward model generalization across sets of labelers To measure how much our procedure overfits to our training labelers, we conduct an experiment where we train multiple RMs on subsets of labelers, and test their generalization to held-out labelers. We split the comparison data into five groups of labelers, so that each group has roughly the same amount of training data. We then apply five fold cross validation, by training the 6B reward model on four groups and validating on the other group. We use the same hyperparameters as defined in Appendix C.2. We find that the inter- and intra-group validation accuracies for predicting the human- preferred output are 72.4±0.4%, and 69.6±0.9% respectively, suggesting our RMs can generalize well to held-out labelers drawn from the same set as the training labelers. E.3 Metadata results as a function of model size In Figure 30, we show metadata results as a function of model size. E.4 Likert scores In Figure 31, we show Likert scores for each of our models on our prompt distribution. The results largely track with our preference results in Section 4.1. E.5 Measuring bias Our results on the Winogender and CrowS-Pairs dataset are shown in Figure 32. InstructGPT doesn’t significantly improve over GPT-3 on these datasets.

▼生成AIの回答(ChatGPT-4o)
①何についての記載か? + 要旨は何?

この節では、公開されている自然言語処理（NLP）データセットにおけるパフォーマンスの追加結果、報酬モデルの一般化、モデルサイズに応じたメタデータ結果、Likertスコア、バイアスの測定結果に関する記載がされている。

要旨は以下の通りである。

モデルのバイアス、トキシシティ、真実性、および自然言語能力を測定するための自動評価の結果。
報酬モデルが訓練ラベラーに過剰適合するかどうかを調べるための一般化実験の結果。
モデルサイズに応じたメタデータの結果と、Likertスコアの測定結果。
InstructGPTのバイアス測定結果は、WinogenderおよびCrowS-PairsデータセットではGPT-3に対して大きな改善が見られない。

②具体的な処理方法の記載

自動評価では、モデルのゼロショットとフューショットのパフォーマンスを測定し、PPOモデルの訓練とその変種であるPPO-ptxモデルの比較が行われている。図28および図29にパフォーマンスが示されている。
報酬モデルの一般化については、5つのラベラーグループにデータを分割し、5つのグループ間でクロスバリデーションを行い、6Bパラメータの報酬モデルを訓練した（ハイパーパラメータはAppendix C.2を参照）。
各グループ内およびグループ間での精度を測定し、訓練ラベラーセットから外れたラベラーに対しても良好に一般化することが確認された。
バイアス測定は、WinogenderとCrowS-Pairsデータセットを用いて行われたが、InstructGPTはGPT-3と比較して大きな改善を示さなかった（図32）。

③改良点・工夫点・テクニック等の記載

報酬モデルの一般化を評価するために、5つのラベラーグループを使ったクロスバリデーションを実施する点が工夫されている。
フューショットのパフォーマンスでの改善を図るため、PPO-ptxモデルの使用が工夫されている。

④メカニズムの解明・なぜそうなるのか等の記載

報酬モデルの一般化に関して、訓練ラベラーセットに過剰適合せず、異なるラベラーグループに対しても精度が高いことから、モデルが特定のラベラーに依存しないことが確認された。

⑤性能が向上した記載

PPOモデルでは、フューショット設定で多くのデータセットでパフォーマンスの低下が見られたが、PPO-ptxモデルを使用することでその低下が緩和されたことが記載されている。
6Bパラメータの報酬モデルでは、ラベラー間での予測精度が72.4±0.4%、グループ内では69.6±0.9%と一般化能力が確認された。

⑥比較の記載

モデル	ゼロショット設定	フューショット設定	パフォーマンスの変化
PPO	一部データセットで回帰	多くのデータセットで回帰	性能低下
PPO-ptx	改善	性能低下が緩和	改善

対応する図表番号：図28（ゼロショット）、図29（フューショット）

⑦上記⑥以外で表に出来そうな部分

表にできそうな部分は無し。

⑧具体的な数値の記載

数値	説明
72.4±0.4%	ラベラー間の報酬モデル予測精度
69.6±0.9%	グループ内の報酬モデル予測精度

⑨具体的な変数名(数式用の記号)の記載

変数名	説明
6B	6ビリオンパラメータの報酬モデル

⑩図/表があれば、各図/表は何を主張するためのものか

図28: ゼロショットにおけるモデルのパフォーマンスを示しており、PPOモデルとPPO-ptxモデルの比較を行っている。
図29: フューショットにおけるモデルのパフォーマンスを示しており、PPOモデルとPPO-ptxモデルのパフォーマンスの違いを明確にしている。
図30: モデルサイズに応じたメタデータの結果を示している。
図31: Likertスコアを示し、各モデルのパフォーマンスに対するユーザープリファレンスの結果を可視化している。
図32: バイアス測定の結果を示し、WinogenderおよびCrowS-PairsデータセットにおけるInstructGPTとGPT-3の比較を行っている。

「⑥比較の記載」で「回帰」と書かれてあるのは、「低下」(レグレッション)の間違い。

E.6 Fixing regressions on public NLP datasets

E.7 Optimal KL reward coefficient

E.8 PPO init models

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) E.6 Fixing regressions on public NLP datasets We sweep a range of pretraining loss coefficient (γ in Equation 2) to see its effects on the performance of public NLP datasets and validation reward. The results are shown in Figure 33. By setting pretraining loss coefficient to greater or equal 20, the regression on these tasks can be recovered, on the 1.3B model. We also noticed that the sensitivity to pretraining loss coefficient varies across tasks. Although increasing the pretraining loss coefficient causes the validation reward to drop, a single value of 27.8 seems to work well across model sizes, from 1.3B to 175B parameter count. The human likert score appeared to be insensitive to the exact values of pretraining loss coefficient in our ablation studies. We further investigate whether increasing the coefficient of KL reward (β in Equation 2) is sufficient to fix the regressions on public NLP datasets, using the 1.3B model. We set the pretraining loss coefficient to 0 and sweep a range of KL reward coefficient’s uniformly in log linear space. The results are shown in Figure 34. The pretrained GPT model is used as the KL reward model, in these experiments. We find that even by increasing the KL reward coefficient to 2.0, which is 100 times of the default value, the regressions still cannot be fixed. As expected, too large KL reward coefficient causes a significant drop in the validation reward. This result demonstrates that pretraining data distribution is critical for fixing the regressions on the public NLP datasets and maintaining the capabilities of the pretrained model. In Figure 35, we show that training for longer results in regressions on public NLP datasets, on the 1.3B model. We apply our default training method for PPO with pretraining mix, with three different random seeds. Instead of training for 256k episodes, we train for 512k episodes. As can be seen, on DROP and SquadV2, the model starts out with better performance than the GPT-3 model. As training goes on, the performance on both tasks drops slightly below the GPT-3 baseline. E.7 Optimal KL reward coefficient Even with the pretraining data mix for PPO training, it’s still important to tune the KL reward coefficient properly. In Figure 36, we show the human likert score as a function of the KL reward coefficient. Both 0 and 2 for KL reward coefficient result in poor performance. The optimal value is around 0.01 and 0.02. E.8 PPO init models We experimented with a few variants of the SFT models as the PPO’s init model, including training on the human demonstration data for one and two epochs, with 0%, 10%, and 50% pretraining data mix. As shown in Figure 37, the only setting stands out is with 10% pretraining data mix. We chose to train the PPO’s init models on the human demonstration dataset for two epochs, with 10% pretraining data mix, although PPOs’ performance seems not sensitive to these particular choice.

▼生成AIの回答(ChatGPT-4o)
①何についての記載か? + 要旨は何?

この節では、公開されているNLPデータセットにおけるパフォーマンス低下（回帰）の解消方法やKL報酬係数の最適値、PPOモデルの初期設定について言及している。

要旨は以下の通りである。

公開NLPデータセットでの回帰を解消するために、事前学習損失係数（γ）を変更した実験結果（図33）。
事前学習損失係数を0にした際のKL報酬係数（β）に関する実験結果（図34）。
長期間の訓練がNLPデータセットでの回帰に与える影響（図35）。
KL報酬係数の最適値に関する調整結果（図36）。
PPO初期化モデルの選択についての実験結果（図37）。

②具体的な処理方法の記載

事前学習損失係数の変更実験：事前学習損失係数（γ、Equation 2）を20以上に設定すると、公開NLPデータセットでの回帰が1.3Bモデルで解消されることが確認された（図33）。タスクごとにこの係数に対する感度は異なるが、27.8という値が1.3Bから175Bパラメータのモデルにわたって良好に機能することが示されている。
KL報酬係数の変更実験：事前学習損失係数を0に設定し、KL報酬係数（β、Equation 2）を対数線形空間で一様に変動させた。KL報酬モデルとして事前学習されたGPTモデルを使用し、KL報酬係数を100倍（2.0）に増加させても回帰は解消されなかった（図34）。
長期間の訓練の影響：PPOの事前学習ミックスを用いてデフォルトの訓練方法を採用し、512kエピソードまで訓練を延長したが、DROPおよびSquadV2においてパフォーマンスがGPT-3ベースラインを下回る結果が得られた（図35）。
KL報酬係数の最適化：KL報酬係数が0および2では人間のLikertスコアが悪化するが、最適値は0.01～0.02であることが確認された（図36）。
PPO初期化モデルの選択：複数のSFTモデルをPPOの初期化モデルとして試験し、人間のデモデータで2エポック訓練し、10%の事前学習データミックスを使用した場合が最も効果的であった（図37）。

③改良点・工夫点・テクニック等の記載

事前学習損失係数を20以上に設定することで、公開NLPデータセットでの回帰を解消する工夫が行われている。
KL報酬係数を0から100倍までスイープし、回帰が解消されない点を確認し、事前学習データ分布の重要性が示された。
512kエピソードまで訓練を延長するという工夫により、訓練の長さがパフォーマンスに与える影響を調査した。

④メカニズムの解明・なぜそうなるのか等の記載

公開NLPデータセットでの回帰が、事前学習損失係数の調整によって解消される理由は、事前学習データ分布がモデルの性能維持に重要であるためである。
KL報酬係数を増加させても回帰が解消されない理由は、事前学習データ分布が回帰の解消に重要な役割を果たしているためである。

⑤性能が向上した記載

事前学習損失係数を20以上に設定することで、1.3BモデルにおけるNLPタスクでの回帰が解消された（図33）。
最適なKL報酬係数は0.01～0.02であり、それによりLikertスコアが向上した（図36）。
人間のデモデータで2エポック訓練し、10%の事前学習データミックスを使用した場合、PPOの初期化モデルのパフォーマンスが向上した（図37）。

⑥比較の記載

パラメータ	パフォーマンスへの影響	図表番号
事前学習損失係数 20以上	回帰が解消	図33
KL報酬係数 2.0	回帰が解消されない	図34
訓練エピソード 512k	GPT-3を下回る	図35
KL報酬係数 0.01～0.02	Likertスコアが向上	図36
初期化モデル 10%事前学習ミックス	パフォーマンスが向上	図37

⑦上記⑥以外で表に出来そうな部分

表にできそうな部分は無し。

⑧具体的な数値の記載

数値	説明
20	事前学習損失係数で回帰が解消される最小値
27.8	最も効果的な事前学習損失係数
2.0	KL報酬係数の最大値（回帰が解消されない）
512k	訓練エピソード数
0.01	最適なKL報酬係数
10%	事前学習ミックスの割合

⑨具体的な変数名(数式用の記号)

変数名	説明
γ	事前学習損失係数（Equation 2）
β	KL報酬係数（Equation 2）

⑩図/表があれば、各図/表は何を主張するためのものか

図33: 事前学習損失係数を変動させた際の公開NLPデータセットおよびバリデーション報酬に対する影響を示している。最適値は20以上である。
図34: KL報酬係数を変動させた際の結果を示しており、KL報酬係数の増加が回帰の解消に効果がないことを示している。
図35: 訓練を長期間実施した際の公開NLPデータセットの回帰を示している。
図36: KL報酬係数の最適値に対するLikertスコアの変動を示しており、0.01～0.02が最適であることが確認された。
図37: PPO初期化モデルに対する事前学習ミックスの影響を示し、10%の事前学習ミックスが最も効果的であることを示している。

生成AIの回答で「回帰」と書かれてあるのは、「低下」(レグレッション)の間違い。

E.9 Learning rate optimization for PPO models

E.10 RealToxicityPrompts results as a function of input toxicity

E.11 Additional ablations

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) E.9 Learning rate optimization for PPO models For both 1.3B and 6B models, we scan the learning rate in log-linear space, from 2.55e-6 to 2.55e-5, for both PPO with and without the pretraining data mix. All runs with learning rate greater than 8.05e-6 diverged, for PPO models without pretraining data mix. For the 175B models, we did similar experiments with two learning rates of 2.55e-6 and 3.74e-06, due to compute constraints. Figure 38 shows the human evaluation results. PPO with pretraining data mix appears to be less sensitive to change of the learning rate. Based on these results, we picked the checkpoints with the highest likert scores, as our final models. E.10 RealToxicityPrompts results as a function of input toxicity In the RealToxicityPrompts task, we measure toxicity via the Perspective API and find that the toxicity of our model outputs is highly correlated with the toxicity of the input prompt, as shown in Figure 39. In order to better capture our models’ behavior in unsafe regimes, we draw 5000 examples from the RealToxicityPrompts dataset with an approximately uniform distribution over prompt toxicity and report average toxicity over this sample. E.11 Additional ablations We compared using different amount of pretraining data, while keeping the pretraining loss coefficient constant. By increasing the amount of pretraining data, the quality of gradient estimates from the pretraining improves. We found that using a pretraining data ratio of 4, the log probability loss on the pretraining distribution would often increase throughout the course of the training. Some preliminary experiments show better human Likert scores can be achieved with a pretraining data ratio of 32. However, the training time also increases by a few fold. By setting the pretraining data ratio to 8, the training time doubles that of the corresponding experiment without using pretraining mix; we chose this as a middle ground between training speed and pretraining loss performance. Using the 1.3B model, we did not find it helpful to train more than 256k episodes, for PPO with pretraining data mix. We leave it to future work, whether increasing the number of unique prompts and using larger models may change this conclusion. We experimented with batch sizes of 64, 128, 256, 512, and 1024, for PPO with pretraining data mix, on the 1.3B model. A batch size of 512 was found to be the best through human evaluations. After fixing the batch size at 512, we further experimented with minibatch sizes of 8, 16, 32, 64. We found a minibatch size of 32 to be optimal and is slightly better than 64. However, our final models used a minibatch size of 64, since it has better GPU utilization than a minibatch size of 32.

▼生成AIの回答(ChatGPT-4o)
①何についての記載か? + 要旨は何?

E.9 Learning rate optimization for PPO models: 1.3B、6B、175BのモデルでのPPO学習率最適化に関する実験結果を報告している。プリトレーニングデータミックスを用いたPPOと用いないPPOの比較や、リッカートスコアによる学習率最適化の影響を示している。
E.10 RealToxicityPrompts results as a function of input toxicity: RealToxicityPromptsタスクにおける入力のトキシシティとモデル出力のトキシシティの相関関係を検証している。
E.11 Additional ablations: プリトレーニングデータ量、バッチサイズ、エピソード数など、PPOモデルのトレーニングの追加アブレーションを実施し、最適なハイパーパラメータ設定について検討している。

要旨

プリトレーニングデータミックスを用いたPPOは学習率に対して安定している。
RealToxicityPromptsでは入力トキシシティと出力トキシシティが高く相関する。
プリトレーニングデータ量、バッチサイズ、エピソード数を調整することで最適なトレーニング結果が得られる。

②具体的な処理方法の記載

E.9: 学習率はlog-linear空間で2.55e-6から2.55e-5の範囲で探索。175Bモデルでは計算コストの制約から2.55e-6と3.74e-6で実験。プリトレーニングデータミックスを用いるPPOと用いないPPOを比較し、最高のリッカートスコアを持つチェックポイントを選択。
E.10: RealToxicityPromptsデータセットから5000例を抽出し、トキシシティの分布を均一にし、Perspective APIを使用してトキシシティを測定。
E.11: プリトレーニングデータ量を変更し、データ比率32まで増やすとリッカートスコアが向上するが、トレーニング時間も増加する。バッチサイズは512、ミニバッチサイズは64が最適。

③改良点・工夫点・テクニック等の記載

E.9: 学習率の探索範囲を広くし、異なるモデルサイズにおけるPPOの挙動を比較した点が工夫されている。プリトレーニングデータミックスを用いることで学習率への感度を低減。
E.10: トキシシティ分布を均一化するために5000例を抽出し、入力と出力のトキシシティを比較する手法を採用している。
E.11: プリトレーニングデータ比率を4から32まで変更し、モデルの性能向上とトレーニング時間とのバランスを考慮している。また、バッチサイズとミニバッチサイズの最適化も工夫点である。

④メカニズムの解明・なぜそうなるのか等の記載

E.9: プリトレーニングデータミックスを用いるPPOは、異なる学習率に対して安定している理由は、プリトレーニングデータが学習を安定させ、過度な更新を抑えるためであると推測される。
E.10: モデル出力のトキシシティが入力に強く依存するのは、モデルが入力の特性を反映しているためである。
E.11: プリトレーニングデータ比率を増やすことで、勾配の質が向上し、最終的なリッカートスコアが向上するメカニズムが示されている。

⑤性能が向上した記載

E.9: プリトレーニングデータミックスを用いた場合、PPOモデルのリッカートスコアが最適化される（Figure 38）。
E.10: モデル出力のトキシシティが入力に依存することが確認され、トキシシティ制御の指標として利用できる（Figure 39）。
E.11: プリトレーニングデータ比率を32にすることでリッカートスコアが向上するが、トレーニング時間が数倍に増加（記載された具体的な図表なし）。

⑥比較の記載

項目	プリトレーニングデータミックス使用	プリトレーニングデータミックス不使用
学習率の感度	低感度	高感度
トレーニング安定性	高い	低い
使用モデルサイズ	1.3B、6B、175B	1.3B、6B、175B
最適リッカートスコア	高い	低い
トキシシティの相関関係 (E.10)	高い	無し

(Figure 38, 39に対応)

⑦上記⑥以外で表に出来そうな部分

バッチサイズ	ミニバッチサイズ	最適性
512	64	最適
1024	32	良好

⑧具体的な数値の記載

数値	説明
2.55e-6	学習率 (E.9)
2.55e-5	学習率範囲上限 (E.9)
5000	RealToxicityPromptsで使用されたサンプル数 (E.10)
32	プリトレーニングデータ比率 (E.11)
512	バッチサイズ (E.11)
64	ミニバッチサイズ (E.11)

⑨具体的な変数名(数式用の記号)

変数名	説明
KL(β)	KL報酬係数 (前述)
γ	プリトレーニングロス係数 (前述)
学習率	学習に使用する更新率 (E.9)
トキシシティ	モデル出力の有害性指標 (E.10)
バッチサイズ	トレーニングに使用するデータのサイズ (E.11)
ミニバッチサイズ	一度に処理するデータの部分集合 (E.11)

⑩図/表があれば、各図/表は何を主張するためのものか

Figure 38: リッカートスコアの学習率依存性を示し、最適な学習率範囲を特定するためのもの。
Figure 39: モデル出力のトキシシティと入力トキシシティの相関を示し、トキシシティ制御の有効性を示す。

F Model samples

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) F Model samples In this section, we provide some additional samples from both the 175B GPT-3 and 175B InstructGPT (PPO-ptx) models. We sample at T = 1 for InstructGPT, and use T = 0.7 for GPT-3, since GPT-3 performs poorly at high temperatures (this slightly disadvantages InstructGPT). In Figure 42, we show the full French sample from Figure 8, illustrating that our model is sometimes able to follow instructions in other languages, despite our dataset containing almost exclusively English. In Figure 44, we show our model’s propensity to answer instructions that may be harmful, a result of us prioritizing helpfulness to the user in our training data. In Figure 45, we show another example of our model describing code, though it is still far from perfect. In Figures 46–50, we show labeler-written prompts from our dataset, along with model samples and the human-written demonstration. These 5 prompts were selected from 15 to show a range of different tasks.

▼生成AIの回答(ChatGPT-4o)
①何についての記載か? + 要旨は何?

F Model samples: 175B GPT-3と175B InstructGPT (PPO-ptx)モデルのサンプル出力に関する記載である。異なる温度設定を使用し、両モデルの動作例を示している。また、フランス語での指示や、潜在的に有害な指示に対するモデルの応答の例も含まれている。

要旨

175B GPT-3と175B InstructGPTの出力サンプルを提供し、各モデルの性能や特徴を具体的な事例を通じて評価。
モデルは英語以外の言語にも対応するが、その応答は完璧ではない。
有害な指示に対しても応答する場合があり、これは訓練データがユーザーに対する有用性を優先したためである。
コード説明のサンプルも提供されているが、完全な精度には至っていない。

②具体的な処理方法の記載

175B InstructGPTはT = 1でサンプリングし、GPT-3はT = 0.7でサンプリングしている。これは、GPT-3が高い温度ではパフォーマンスが低下するため、やや不利な設定である。
フランス語のサンプルでは、英語の指示に対応する訓練データがほとんどであるにもかかわらず、他言語の指示に対してもモデルがある程度対応できることが示されている。
有害な指示に対する応答では、モデルがユーザーの有用性を優先した結果、有害な内容にも反応してしまうことが確認されている。

③改良点・工夫点・テクニック等の記載

GPT-3とInstructGPTの比較では、異なる温度設定を採用しており、特にInstructGPTがT = 1で動作する点が工夫である。これにより、指示への応答性が向上し、多様な指示にも対応できるようになっている。
特に英語以外の言語に対する応答能力が強調されており、これはデータセットの偏りを超えて多言語対応が可能であることを示している。

④メカニズムの解明・なぜそうなるのか等の記載

InstructGPTがT = 1でサンプリングされる理由は、モデルがより多様な応答を生成するためであり、指示に従う性能が向上するためである。一方、GPT-3はT = 0.7での方が安定するため、この温度設定が選ばれている。
モデルが有害な指示にも応答するのは、ユーザーに対する有用性を優先した訓練データが原因であると考えられる。

⑤性能が向上した記載

InstructGPTは高温度設定でより良い性能を発揮しているが、具体的な性能指標（例: 精度、リッカートスコア等）の記載は無い。
モデルが他言語の指示に応答できる点は、性能向上の一例であるが、これも具体的な数値は示されていない。
図としては、Figure 42にフランス語の応答例が示され、Figure 44には有害な指示に対する応答が示されている。

⑥比較の記載

モデル	温度設定	指示応答性能	特筆事項
GPT-3	0.7	安定している	高温度設定ではパフォーマンスが低下する
InstructGPT (PPO-ptx)	1.0	高い	より多様な応答を生成できる

(Figure 42, 44, 45, 46–50に対応)

⑦上記⑥以外で表に出来そうな部分

サンプル番号	モデル	言語対応	特徴
Figure 42	InstructGPT (PPO-ptx)	フランス語	英語以外の指示に応答可能
Figure 44	InstructGPT (PPO-ptx)	英語	有害な指示にも応答する
Figure 45	InstructGPT (PPO-ptx)	英語	コードの説明が不完全
Figure 46-50	GPT-3 / InstructGPT	英語	ラベラーの書いたプロンプトに応答

⑧具体的な数値の記載

数値	説明
T = 1	InstructGPTのサンプリング温度
T = 0.7	GPT-3のサンプリング温度
175B	GPT-3およびInstructGPTモデルのパラメータ数

⑨具体的な変数名(数式用の記号)

変数名	説明
T	サンプリング温度 (モデルの多様性を調整)
175B	モデルのパラメータ数

⑩図/表があれば、各図/表は何を主張するためのものか

Figure 42: 英語以外の言語であるフランス語に対する応答の例を示している。モデルがフランス語の指示に部分的に応答できることを主張している。
Figure 44: 有害な指示に対しても応答する可能性があることを示すためのもので、訓練データに基づいた限界を示している。
Figure 45: コードの説明におけるモデルの能力を評価する例として示されており、モデルがまだ完璧ではないことを示している。
Figures 46–50: さまざまなタスクに対するラベラー書きのプロンプトとモデルの応答例を示し、モデルの多様なタスク対応能力を評価している。

あとがき

所感

機械学習についてある程度知っていないと、生成AIに質問しても、その回答内容だけでは理解できないと思います。生成AIの回答は、論文の内容をあまり変えずに、要点をそのまま掻い摘んで回答するような形になっています。(良い意味で論文の要点をそのまま抜き出した形)

分かったこと

分かったこと・注目した点を列挙すると:

初期のInstructGPTモデルの訓練には、ラベラーが手動で作成したプロンプトが使用された。
ラベラーには、Plain、Few-shot、User-basedの3種類のプロンプトを作成させた。

Plainプロンプト: ラベラーに任意のタスクを考えさせ、多様性を確保。
Few-shotプロンプト: ラベラーが指示とクエリ/レスポンスペアを作成し、K個のクエリ/レスポンスペアからK-1を使ってトレーニング例を生成する形式を取った（Brown et al., 2020を参照）。
User-basedプロンプト: OpenAI APIのユースケースに基づいたプロンプトを作成し、別のラベラーがタスクの具体的な情報を削除して高レベルのタスクに変換。
上記プロンプトを使用して、最初のInstructGPTモデルを監督学習で訓練し、2021年初頭にベータ版で公開。

APIユーザーによるプロンプトは、OpenAI API Playgroundで収集された。
プロンプト収集時には、ユーザーからの明示的な同意が得られる仕組みを導入した。
個人識別情報（PII）を含むプロンプトはフィルタリングされた。
プロンプトは「生成」「オープンQA」「クローズドQA」「ブレインストーミング」「チャット」「リライト」「要約」「分類」「抽出」「その他」の10のユースケースに分類された。

モデルのトレーニングおよび検証に使用されたデータセット:
SFTデータ: ラベラーが作成したプロンプトが多数使用され、特定の指示から複数のデータポイントを生成するために、少数の例から複数のプロンプトが合成された。
RMデータ: 各プロンプトに対して4～9個の出力がランク付けされ、そのランク付けペアを(${}_K C_2$)で生成し、モデルがこれらのペアでトレーニングされた。
PPOデータ: 主にAPIユーザーからのプロンプトを使用し、トレーニングと検証を実施した。

ラベラーの選定:

センシティブな発言のフラグ付けの一致度: プロンプトや応答の中でセンシティブな内容（有害な感情を引き起こす可能性のある発言、例：有毒、性的、暴力的、政治的な内容）を含むデータセットを作成し、研究者のラベリングとラベラーの一致度を測定した。
応答の順位付けの一致度: APIに送信されたプロンプトと、複数のモデル出力に対する応答をラベラーが順位付けし、その結果を研究者の順位付けと比較した。
センシティブな発言のフラグ付けや応答の順位付けにおいて75%以上の一致度を持つ者が選ばれた。

ラベラーの年齢分布: ラベラーの75%が35歳未満。
性別分布: 性別は男性と女性がほぼ均等に分布している。
ラベラーの地域分布: 主に米国または東南アジア出身。

モデルアーキテクチャの詳細:
全モデルはGPT-3アーキテクチャを使用しており、報酬モデルと価値関数のために元のモデルのunembedding layerをプロジェクション層に置き換え、スカラー値を出力するようにしている。
コンテキスト長とプロンプトフィルタリング: すべての言語モデルとRLポリシーは2kトークンのコンテキスト長を持ち、プロンプトが1kトークンを超えた場合はフィルタリングされ、応答も1kトークンに制限されている。

モデルサイズ: 175Bでは、学習率 (LR): 5.03e-6、バッチサイズ (BS): 8、エポック数: 16

6B報酬モデルの詳細:
175BのRMは低い検証損失を達成できるが、トレーニングが不安定で、計算コストも大幅に増加するため6Bモデルが使用された。
6Bの報酬モデルは学習率の範囲で安定しており、同様に強力なPPOモデルを導いた。
RMはGPT-3モデルを元に初期化され、いくつかの公開NLPデータセットでファインチューニングされた。
学習率やスケジュールには敏感でなかったが、エポック数に敏感であり、複数エポックでは過学習が生じた。
エポック数の調整: トレーニングはエポック数に非常に敏感で、複数エポックを使用するとすぐに過学習が発生し、検証損失が悪化した。そのため、1エポックでトレーニングを終了する工夫がされた。

RLHFモデルの詳細:
RLHFモデルは事前学習済みのGPT-3モデルから初期化され、デモンストレーションデータセットで2エポックの教師あり微調整が行われた。
微調整の際に、PPOトレーニングを効果的に進めるため、事前学習データの10%を混合して使用。
各モデルの最適な学習率はログ線形スイープを使用して選定され、1.3B、6B、175Bモデルにそれぞれ異なる学習率が設定された。
RLHFトレーニングは、256kエピソードにわたって実施され、31kの一意のプロンプトが使用された。
各バッチサイズは512で、これを64のミニバッチに分割し、それぞれが単一の内エポックでトレーニングされた。
PPO勾配と事前学習勾配をそれぞれ連続して計算し、バッファに積み重ねる形で勾配を更新した。

PPOトレーニングにおいて、事前学習データの勾配を混合することが効果的であることがわかり、γ=27.8の係数でPPO勾配と事前学習勾配の相対的な強度を制御した。
⇔
0.02: KL報酬のβ値

報酬モデルの一般化を評価するために、5つのラベラーグループを使ったクロスバリデーションを実施する点が工夫されている。
報酬モデルの一般化に関して、訓練ラベラーセットに過剰適合せず、異なるラベラーグループに対しても精度が高いことから、モデルが特定のラベラーに依存しないことが確認された。

PPO初期化モデルの選択：複数のSFTモデルをPPOの初期化モデルとして試験し、人間のデモデータで2エポック訓練し、10%の事前学習データミックスを使用した場合が最も効果的であった（図37）。

特に英語以外の言語に対する応答能力が強調されており、これはデータセットの偏りを超えて多言語対応が可能であることを示している。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up