1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

大規模言語モデル(LLM)の学習方法

Posted at

はじめに

一般的な枠としてのLLMの学習方法をざっくりまとめてみます。
新しい学習方法も日進月歩で登場しているので最新の方法というわけではありません。

ざっくり分類

ざっくり分類すると以下のようになると思っています。
image.png

Pre-Training

Scratchについてはそのまんま。初期値から学習するやつ。

Continual Learningは継続学習と言われるやつ。

ラベルなしの大量データによる事故教師あり学習がベースとなる。

以下の3種類のようなものがある:

  1. Full Language Modeling
  2. Prefix Language Modeling
  3. Masked Language Modeling

image.png

Fine-Tuning

Fine-Tuningは以下で大別される:

  • Full Parameter
  • PEFT(Parameter Efficient Fine-Tuning)
  • Others(これらをFine-Tuningというのは本当はよろしくないかもしれない)

Full Parameter

これはそのまま。いわゆる普通のFine-Tuning。

PEFT(Parameter Efficient Fine-Tuning)

パラメータに関する効率的なFine-Tuning。
以下のようなパターンがある:

  1. Adapter Tuning:
    moduleレベルで拡張部分を付与

  2. Prefix Tuning:
    タスク固有のベクトルを追加

  3. Prompt Tuning:
    インプットに指示を追加

  4. Low-Rank Adaptation:
    Layerにoutputとの差分を学習させる層を追加
    Ada LoRA という発展手法もある

image.png

↓アダプターのイメージ
image.png

※どの手法も元のLLM部分のパラメータはfixして学習を行うため、一般的なFine-Tuningとは意味が異なることに注意

Others

他の良く効く学習方法

Instruction Tuning

既存の自然言語処理タスクを自然言語によるインストラクションを付与して変換し,大規模言語モデルをインストラクションに従った出力が出来るようにチューニングする手法

他手法とのフロー比較
image.png

Instruction Tuningのイメージ
image.png

学習時に複数のタスクを指示の形でたくさん学習し、推論時に特定の(見たことのない)タスクに応用する思想。

RLHF (Reinforcement Learning from Human Feedback)

GPT-3の改良版であるInstructGPTで初出と思われる。

人間の好みに対して直接的に最適化することでアライメントを行う。

以下の3ステップで行う:

  1. Supervised Fine-tuning
    人間がラベル付けしたデータでLLMを学習

  2. Reward Model Training
    LLMの複数出力を人間がランク付けをし、ランキングをReward Modelに学習させる

  3. RL Fine-tuning
    Reward Modelが計算する報酬が最大化するようにLLMを学習(Aligned LM)

image.png

image.png

DPO (Direct Preference Optimization)

「Direct Preference Optimization: Your Language Model is Secretly a Reward Model」(2023.5)
Paper:https://arxiv.org/pdf/2305.18290.pdf
参考:https://medium.com/@joaolages/direct-preference-optimization-dpo-622fc1f18707

PPO(Proximal Policy Optimization)ベースのRLHFではReward Modelの学習や強化学習を使用。

DPOはRLHF同様に、人間の好みに合わせた改善を行う。

DPOでは強化学習は行わず、それに伴うハイパーパラメータの調整も不要になる。

image.png

DPOの流れ:

  1. Referenceとなるモデルを人間の好みが反映されるように学習し(好ましい出力の確率を上げる)、Referenceモデルを固定する

  2. 1つの入力に対するReference modelによる2つの出力(確率も保持)を取得

  3. 学習するモデルの出力確率(分布)が2.と近づくように学習する

image.png

image.png

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?