大規模言語モデルにおける強化学習

Posted at 2026-01-19

はじめに

本記事は、松尾・岩澤研究室「大規模言語モデル講座基礎編」で学んだ内容をもとに、講義内容を自分なりに整理し、自分の言葉で説明できるようになることを目的としたまとめです。

今回は第7回講義「強化学習」を題材に、 LLMにおいて強化学習がどのような目的で使われているかを整理し、その上で 代表的な強化学習手法（RLHF / DPO / RLVR） の概要をまとめたいと思います。

現在のLLMにおける強化学習の主な用途は、以下の2つがあります。

アライメントとは、モデルの出力を人間の価値観や意図に一致させることを指します。

上記のような目的のために、LLMでは以下のような学習が行われます。

これにより、モデルは「人間にとって望ましい文章」を生成するように誘導されます。

2024年末頃から、強化学習は 推論能力（Reasoning）の向上 においても大きな成果を上げるようになりました。

このアプローチにより、従来の言語モデルでは考えられなかった性能向上が報告されています。
具体的には、数学オリンピックレベルの問題において金メダル相当の成績が報告されています。
また、IQテストにおいて140を超えるスコアを示す例も紹介されています。

ここでは「人間らしい思考」ではなく、「正解に到達する推論過程」を報酬として与える点が重要になります。

RLHFは、LLMのアライメントを実現する代表的な手法です。
代表的な適用例：GPT-3.5/GPT-4

RLHFは「人間の価値観に沿ったモデルを作る」ための、最も標準的なアプローチと言えます。

DPOは、RLHFをよりシンプルにしたアライメント手法です。
代表的な適用例：Llama3/Qwen2.5

そのため、近年ではアライメント用途においてRLHFの代替としてDPOが採用されるケースが増えています。

RLVRは、推論能力向上を目的とした強化学習の枠組みです。
代表的な適用例：o1/DeepSeek-R1

これらはいずれも、推論過程を含めた出力全体を評価し、より正確で深い推論を行う方策を学習する点に特徴があります。

RLVRは、アライメントを目的としたRLHFやDPOとは異なり、「正解性」や「推論の正しさ」を直接最適化する点に特徴があります。