はじめに
本記事は、松尾・岩澤研究室「大規模言語モデル講座 基礎編」で学んだ内容をもとに、講義内容を自分なりに整理し、自分の言葉で説明できるようになることを目的としたまとめです。
今回は第7回講義「強化学習」を題材に、 LLMにおいて強化学習がどのような目的で使われているかを整理し、その上で 代表的な強化学習手法(RLHF / DPO / RLVR) の概要をまとめたいと思います。
LLMにおける強化学習の目的
現在のLLMにおける強化学習の主な用途は、以下の2つがあります。
- アライメント
- 推論能力の向上
強化学習の用途①:アライメント(Alignment)
アライメントとは、モデルの出力を人間の価値観や意図に一致させることを指します。
具体例
- ユーザーの指示に忠実で、役に立つ応答を行う(Helpful)
- 情報の虚偽がなく,正確な文章を出力する(Honest)
- 差別的・暴力的・有害な発言を抑制する(Harmless)
上記のような目的のために、LLMでは以下のような学習が行われます。
- 人間が「好ましい回答」「好ましくない回答」を評価
- 倫理的・社会的に問題のある出力を抑制する(負の報酬を与える)
- 人間の判断をもとに定義された報酬を最大化するように強化学習を行う
これにより、モデルは「人間にとって望ましい文章」を生成するように誘導されます。
強化学習の用途②:推論能力の向上
2024年末頃から、強化学習は 推論能力(Reasoning)の向上 においても大きな成果を上げるようになりました。
特徴的なポイント
- 数学やコーディングのタスクにおいて、より長く・深く考えるように学習
- 中間推論(Chain-of-Thought)を適切に展開する能力が向上
- 正解に至る「思考プロセス」そのものを最適化
このアプローチにより、従来の言語モデルでは考えられなかった性能向上が報告されています。
具体的には、数学オリンピックレベルの問題において金メダル相当の成績が報告されています。
また、IQテストにおいて140を超えるスコアを示す例も紹介されています。
ここでは「人間らしい思考」ではなく、「正解に到達する推論過程」を報酬として与える点が重要になります。
LLMにおける代表的な強化学習手法
RLHF(Reinforcement Learning from Human Feedback)
RLHFは、LLMのアライメントを実現する代表的な手法です。
代表的な適用例:GPT-3.5/GPT-4
基本的な考え方
- 人間からのフィードバックデータを用いて言語モデルを強化学習
- 人間が複数の出力候補を比較し、「どちらが良いか」を評価
- その評価をもとに報酬モデルを学習
- 報酬モデルを使って言語モデルを最適化(例:PPO)
特徴
- 人間の意図を直接反映できる
- 高品質なアライメントが可能
- 一方で、人手コストや学習の不安定性が課題
RLHFは「人間の価値観に沿ったモデルを作る」ための、最も標準的なアプローチと言えます。
DPO(Direct Preference Optimization)
DPOは、RLHFをよりシンプルにしたアライメント手法です。
代表的な適用例:Llama3/Qwen2.5
ポイント
- 強化学習を明示的に使わず、教師あり学習(Supervised Learning)として定式化
- 「好ましい応答」と「好ましくない応答」のペアを直接用いる
- 数学的には、特定条件下で RLHFと等価
特徴
- 実装が簡単
- 学習が安定しやすい
- 報酬モデルやPPOが不要
そのため、近年ではアライメント用途においてRLHFの代替としてDPOが採用されるケースが増えています。
RLVR(Reinforcement Learning with Verifiable Rewards)
RLVRは、推論能力向上を目的とした強化学習の枠組みです。
代表的な適用例:o1/DeepSeek-R1
基本思想
- 人間の主観的評価ではなく、検証可能な報酬(Verifiable Reward)を用いる
- 数学の正誤、コードのテスト通過、論理的一貫性などを報酬として定義
- 「正解かどうか」を自動的に判定できるタスクに適している
代表的な手法
- GRPO (Group Relative Policy Optimization)
- DAPO
- Dr. GRPO
これらはいずれも、推論過程を含めた出力全体を評価し、より正確で深い推論を行う方策を学習する点に特徴があります。
RLVRは、アライメントを目的としたRLHFやDPOとは異なり、「正解性」や「推論の正しさ」を直接最適化する点に特徴があります。
まとめ
-
LLMにおける強化学習の主な目的は以下の2つです:
① アライメント(人間の価値観への適合)
② 推論能力の向上 -
RLHFは人間のフィードバックを用いた代表的なアライメント手法
-
DPOは教師あり学習として定式化された、RLHFと数学的に等価な方法
-
RLVRは検証可能な報酬を用いて推論能力を高める枠組みであり、代表的な手法としてGRPOなどがある