はじめに
一般的な枠としてのLLMの学習方法をざっくりまとめてみます。
新しい学習方法も日進月歩で登場しているので最新の方法というわけではありません。
ざっくり分類
Pre-Training
Scratchについてはそのまんま。初期値から学習するやつ。
Continual Learningは継続学習と言われるやつ。
ラベルなしの大量データによる事故教師あり学習がベースとなる。
以下の3種類のようなものがある:
- Full Language Modeling
- Prefix Language Modeling
- Masked Language Modeling
Fine-Tuning
Fine-Tuningは以下で大別される:
- Full Parameter
- PEFT(Parameter Efficient Fine-Tuning)
- Others(これらをFine-Tuningというのは本当はよろしくないかもしれない)
Full Parameter
これはそのまま。いわゆる普通のFine-Tuning。
PEFT(Parameter Efficient Fine-Tuning)
パラメータに関する効率的なFine-Tuning。
以下のようなパターンがある:
-
Adapter Tuning:
moduleレベルで拡張部分を付与 -
Prefix Tuning:
タスク固有のベクトルを追加 -
Prompt Tuning:
インプットに指示を追加 -
Low-Rank Adaptation:
Layerにoutputとの差分を学習させる層を追加
Ada LoRA という発展手法もある
※どの手法も元のLLM部分のパラメータはfixして学習を行うため、一般的なFine-Tuningとは意味が異なることに注意
Others
他の良く効く学習方法
Instruction Tuning
既存の自然言語処理タスクを自然言語によるインストラクションを付与して変換し,大規模言語モデルをインストラクションに従った出力が出来るようにチューニングする手法
学習時に複数のタスクを指示の形でたくさん学習し、推論時に特定の(見たことのない)タスクに応用する思想。
RLHF (Reinforcement Learning from Human Feedback)
GPT-3の改良版であるInstructGPTで初出と思われる。
人間の好みに対して直接的に最適化することでアライメントを行う。
以下の3ステップで行う:
-
Supervised Fine-tuning
人間がラベル付けしたデータでLLMを学習 -
Reward Model Training
LLMの複数出力を人間がランク付けをし、ランキングをReward Modelに学習させる -
RL Fine-tuning
Reward Modelが計算する報酬が最大化するようにLLMを学習(Aligned LM)
DPO (Direct Preference Optimization)
「Direct Preference Optimization: Your Language Model is Secretly a Reward Model」(2023.5)
Paper:https://arxiv.org/pdf/2305.18290.pdf
参考:https://medium.com/@joaolages/direct-preference-optimization-dpo-622fc1f18707
PPO(Proximal Policy Optimization)ベースのRLHFではReward Modelの学習や強化学習を使用。
DPOはRLHF同様に、人間の好みに合わせた改善を行う。
DPOでは強化学習は行わず、それに伴うハイパーパラメータの調整も不要になる。
DPOの流れ:
-
Referenceとなるモデルを人間の好みが反映されるように学習し(好ましい出力の確率を上げる)、Referenceモデルを固定する
-
1つの入力に対するReference modelによる2つの出力(確率も保持)を取得
-
学習するモデルの出力確率(分布)が2.と近づくように学習する