大規模言語モデル(LLM)の学習方法

Posted at 2024-07-16

はじめに

一般的な枠としてのLLMの学習方法をざっくりまとめてみます。
新しい学習方法も日進月歩で登場しているので最新の方法というわけではありません。

ざっくり分類すると以下のようになると思っています。

Scratchについてはそのまんま。初期値から学習するやつ。

Continual Learningは継続学習と言われるやつ。

ラベルなしの大量データによる事故教師あり学習がベースとなる。

以下の3種類のようなものがある：

Fine-Tuningは以下で大別される：

これはそのまま。いわゆる普通のFine-Tuning。

パラメータに関する効率的なFine-Tuning。
以下のようなパターンがある：

↓アダプターのイメージ

※どの手法も元のLLM部分のパラメータはfixして学習を行うため、一般的なFine-Tuningとは意味が異なることに注意

他の良く効く学習方法

既存の自然言語処理タスクを自然言語によるインストラクションを付与して変換し，大規模言語モデルをインストラクションに従った出力が出来るようにチューニングする手法

他手法とのフロー比較

Instruction Tuningのイメージ

学習時に複数のタスクを指示の形でたくさん学習し、推論時に特定の(見たことのない)タスクに応用する思想。

GPT-3の改良版であるInstructGPTで初出と思われる。

人間の好みに対して直接的に最適化することでアライメントを行う。

以下の3ステップで行う：

PPO(Proximal Policy Optimization)ベースのRLHFではReward Modelの学習や強化学習を使用。

DPOはRLHF同様に、人間の好みに合わせた改善を行う。

DPOでは強化学習は行わず、それに伴うハイパーパラメータの調整も不要になる。

DPOの流れ：