Logarithmic Opinion Pooling から強化学習・報酬モデルまで (自分用メモ)

Last updated at 2025-11-17Posted at 2025-11-17

現代の LLM は 事前学習 → 事後学習（SFT/RLHF/DPO） → テスト時推論 という流れで洗練されていく。
この記事では、以下を すべて図で直感的に 理解できるように説明します

RLHF の本質は「意見集約」
報酬モデルはどう組み込まれる？
なぜ強化学習問題の形になる？
DPO の位置づけとは？
RLHF/DPO の欠点とは？

1. Logarithmic Opinion Pooling としての RLHF

RLHF の更新式は以下のようになる：

[
\pi^(y|x)=\frac{1}{Z(x)}\pi_{\text{ref}}(y|x)\exp\left(\frac{r^(x,y)}{\beta}\right)
]

これは「Logarithmic Opinion Pooling（意見の対数空間での加重和）」と同じ形である。

■ 図：RLHF は “意見の結合” として理解できる

             ┌───────────────────────┐
             │ 事前学習モデル π_ref   │
             │ 「自然な文の分布」      │
             └───────────────────────┘
                          │
                          │ （対数空間での加重）
                          ▼
          exp(r/β) = 人間の好み（報酬）を反映
                          │
                          ▼
             ┌───────────────────────┐
             │   最終方策 π*         │
             │ 「自然 × 好み」の統合   │
             └───────────────────────┘

■ 役割まとめ

モデル	意味
**π_ref(y	x)**	「自然なテキスト」の確率（事前学習 LM）
r(x,y)	「人間にとって良い」度合い（報酬モデル）
β	報酬をどれだけ強調するかの重み
*π (y	x)**	最終的な「好ましい」モデル

2. LLM における RLHF は 1 ステップの強化学習

スライドの図をもとに再構成すると、LLM の RLHF では次のように解釈できる：

■ 図：LLM の RLHF は「1 ステップだけの RL」

       状態 s（プロンプト x）
                 │
                 ▼
       行動 a（文章 y の生成）
                 │
                 ▼
   ┌───────────────────────┐
   │    報酬モデル r(x,y)    │ ← 人間の好みを近似
   └───────────────────────┘

※ 状態遷移は無し（1 ステップで終了）

つまり、一般的な RL にある「長い軌跡」「状態遷移」は存在しない。

これが LLM 特有の RL の単純さであり、逆に難しさでもある。

■ 数式としての RLHF（PPO など）

[
\max_{\pi_\theta};\mathbb{E}{y\sim\pi\theta} \left[r_\phi(x,y)\right]

\beta ; D_{KL}(\pi_\theta || \pi_{\text{ref}})
]

3. RLHF/DPO の欠点：報酬が 1 つのスカラーに潰れる

例として、2 つの回答があったとする：

Prompt: リンゴについて教えて下さい

Answer-1: 詳細で有用だが、危険な情報を含む
Answer-2: 安全だが簡潔

■ 図：複雑な評価軸が「1 つの数字に圧縮」されてしまう

有用性 ─────────────┐
                      ├──→ 単一スカラー報酬
安全性 ─────────────┘

RLHF/DPO の報酬モデルや比較学習では、
最終的に 1 つのスカラー値 に評価がまとめられる。

これにより：

有用だがリスクのある回答
安全だが役に立たない回答

などの トレードオフを適切に扱えない 欠点が生じる。

4. 学習フェーズと「強化学習が入る場所」

LLM には 3 段階がある：

■ 図：LLM の 3 フェーズ（強化学習が使われるのは真ん中）

┌──────────────┬──────────────┬──────────────┐
│   事前学習   │   事後学習   │  テスト時推論 │
│ (Pretrain)   │ (SFT/RLHF)   │   (Inference) │
└──────────────┴──────────────┴──────────────┘
                    ↑
          強化学習はここに入る

各フェーズの役割

フェーズ	内容
事前学習	次トークン予測で知識・文法を獲得
事後学習（SFT）	手動で作った良い回答に従う
RLHF / VR	報酬モデルで最適化（RL）
DPO	RL の解析解を教師あり学習化したもの
推論時最適化（RL-inference）	追加学習なしで RL 的制御を行う試み

5. DPO の構造を図で理解する

DPO は RLHF の目的関数を解析した結果、
次の「好ましい vs 好ましくない」の比較学習に落ちる：

■ 図：DPO の基本構造（好悪ペアで直接学習）

(好ましい y⁺)   >   (好ましくない y⁻)

     │                     │
     └──────────┬──────────┘
                ▼
     「y⁺ の方が良い」ことを
      直接パラメータに反映

特徴：

報酬モデルを作らない
強化学習アルゴリズムも不要
計算が軽く、安定して学習可能

ただし欠点は RLHF と同じく

評価が 1 スカラーに潰れる。

6. 総まとめ：RLHF/DPO 全体像（図解）

■ 図：3 モデルによる「意見集約 → 好み最適化」の全体像

                   ┌────────────────────┐
                   │ 事前学習モデル π_ref │
                   │  自然なテキストの分布 │
                   └────────────────────┘
                                  │
                                  │（KLで制約）
                                  │
                                  ▼
               ┌──────────────────────────┐
               │       人間の好み（報酬）     │
               │  r(x,y) or y⁺ > y⁻ (DPO)     │
               └──────────────────────────┘
                                  │
                                  │（加重または比較）
                                  ▼
                   ┌────────────────────┐
                   │   最終方策 π*       │
                   │ 自然 × 好み の融合  │
                   └────────────────────┘

7. 今後の展望（図解）

■ 多次元報酬 (Multi-objective RLHF)

有用性 ─┐
安全性 ─┼──→ 多次元で最適化（研究中）
簡潔性 ─┘

■ テスト時最適化 (RL-inference)

ユーザー入力
      │
      ▼
  推論時に KL 最適化や 報酬最大化 を行う
（追加学習なしで品質改善）

8. 結論

図で説明した通り：

RLHF は「自然な文 × 人間の好み」を
対数空間で重み付け統合 する手法
DPO はその解析解を教師あり学習に変換した手法
両者の最大の欠点は
評価軸が単一スカラーに潰れること
研究は「多次元報酬」「推論時最適化」へと向かっている

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up