現代の LLM は 事前学習 → 事後学習(SFT/RLHF/DPO) → テスト時推論 という流れで洗練されていく。
この記事では、以下を すべて図で直感的に 理解できるように説明します
- RLHF の本質は「意見集約」
- 報酬モデルはどう組み込まれる?
- なぜ強化学習問題の形になる?
- DPO の位置づけとは?
- RLHF/DPO の欠点とは?
1. Logarithmic Opinion Pooling としての RLHF
RLHF の更新式は以下のようになる:
[
\pi^(y|x)=\frac{1}{Z(x)}\pi_{\text{ref}}(y|x)\exp\left(\frac{r^(x,y)}{\beta}\right)
]
これは「Logarithmic Opinion Pooling(意見の対数空間での加重和)」と同じ形である。
■ 図:RLHF は “意見の結合” として理解できる
┌───────────────────────┐
│ 事前学習モデル π_ref │
│ 「自然な文の分布」 │
└───────────────────────┘
│
│ (対数空間での加重)
▼
exp(r/β) = 人間の好み(報酬)を反映
│
▼
┌───────────────────────┐
│ 最終方策 π* │
│ 「自然 × 好み」の統合 │
└───────────────────────┘
■ 役割まとめ
| モデル | 意味 | |
|---|---|---|
| **π_ref(y | x)** | 「自然なテキスト」の確率(事前学習 LM) |
| r(x,y) | 「人間にとって良い」度合い(報酬モデル) | |
| β | 報酬をどれだけ強調するかの重み | |
| *π (y | x)** | 最終的な「好ましい」モデル |
2. LLM における RLHF は 1 ステップの強化学習
スライドの図をもとに再構成すると、LLM の RLHF では次のように解釈できる:
■ 図:LLM の RLHF は「1 ステップだけの RL」
状態 s(プロンプト x)
│
▼
行動 a(文章 y の生成)
│
▼
┌───────────────────────┐
│ 報酬モデル r(x,y) │ ← 人間の好みを近似
└───────────────────────┘
※ 状態遷移は無し(1 ステップで終了)
つまり、一般的な RL にある「長い軌跡」「状態遷移」は存在しない。
これが LLM 特有の RL の単純さであり、逆に難しさでもある。
■ 数式としての RLHF(PPO など)
[
\max_{\pi_\theta};\mathbb{E}{y\sim\pi\theta} \left[r_\phi(x,y)\right]
- \beta ; D_{KL}(\pi_\theta || \pi_{\text{ref}})
]
3. RLHF/DPO の欠点:報酬が 1 つのスカラーに潰れる
例として、2 つの回答があったとする:
Prompt: リンゴについて教えて下さい
Answer-1: 詳細で有用だが、危険な情報を含む
Answer-2: 安全だが簡潔
■ 図:複雑な評価軸が「1 つの数字に圧縮」されてしまう
有用性 ─────────────┐
├──→ 単一スカラー報酬
安全性 ─────────────┘
RLHF/DPO の報酬モデルや比較学習では、
最終的に 1 つのスカラー値 に評価がまとめられる。
これにより:
- 有用だがリスクのある回答
- 安全だが役に立たない回答
などの トレードオフを適切に扱えない 欠点が生じる。
4. 学習フェーズと「強化学習が入る場所」
LLM には 3 段階がある:
■ 図:LLM の 3 フェーズ(強化学習が使われるのは真ん中)
┌──────────────┬──────────────┬──────────────┐
│ 事前学習 │ 事後学習 │ テスト時推論 │
│ (Pretrain) │ (SFT/RLHF) │ (Inference) │
└──────────────┴──────────────┴──────────────┘
↑
強化学習はここに入る
各フェーズの役割
| フェーズ | 内容 |
|---|---|
| 事前学習 | 次トークン予測で知識・文法を獲得 |
| 事後学習(SFT) | 手動で作った良い回答に従う |
| RLHF / VR | 報酬モデルで最適化(RL) |
| DPO | RL の解析解を教師あり学習化したもの |
| 推論時最適化(RL-inference) | 追加学習なしで RL 的制御を行う試み |
5. DPO の構造を図で理解する
DPO は RLHF の目的関数を解析した結果、
次の「好ましい vs 好ましくない」の比較学習に落ちる:
■ 図:DPO の基本構造(好悪ペアで直接学習)
(好ましい y⁺) > (好ましくない y⁻)
│ │
└──────────┬──────────┘
▼
「y⁺ の方が良い」ことを
直接パラメータに反映
特徴:
- 報酬モデルを作らない
- 強化学習アルゴリズムも不要
- 計算が軽く、安定して学習可能
ただし欠点は RLHF と同じく
評価が 1 スカラーに潰れる。
6. 総まとめ:RLHF/DPO 全体像(図解)
■ 図:3 モデルによる「意見集約 → 好み最適化」の全体像
┌────────────────────┐
│ 事前学習モデル π_ref │
│ 自然なテキストの分布 │
└────────────────────┘
│
│(KLで制約)
│
▼
┌──────────────────────────┐
│ 人間の好み(報酬) │
│ r(x,y) or y⁺ > y⁻ (DPO) │
└──────────────────────────┘
│
│(加重または比較)
▼
┌────────────────────┐
│ 最終方策 π* │
│ 自然 × 好み の融合 │
└────────────────────┘
7. 今後の展望(図解)
■ 多次元報酬 (Multi-objective RLHF)
有用性 ─┐
安全性 ─┼──→ 多次元で最適化(研究中)
簡潔性 ─┘
■ テスト時最適化 (RL-inference)
ユーザー入力
│
▼
推論時に KL 最適化や 報酬最大化 を行う
(追加学習なしで品質改善)
8. 結論
図で説明した通り:
- RLHF は「自然な文 × 人間の好み」を
対数空間で重み付け統合 する手法 - DPO はその解析解を教師あり学習に変換した手法
- 両者の最大の欠点は
評価軸が単一スカラーに潰れること - 研究は「多次元報酬」「推論時最適化」へと向かっている