DeepSeek-R1論文を読む：強化学習だけで推論能力が生まれたとはどういうことか

Posted at 2026-05-15

はじめに

DeepSeek-R1は2025年1月に公開され、強化学習（RL）だけでOpenAI-o1と同等の推論能力を達成したとして広く注目された。本記事ではその論文を読み解き、何がどう新しかったのかを整理する。

論文：DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning（2025年1月22日）

論文を読んだことがない人でも理解できるように、技術的な核心を拾いながら整理する。

※推論モデルとは何か・従来のLLMと何が違うのかは、以下の記事にまとめている。

普通のLLMと何が違うのか？推論モデル（Reasoning Model）を整理する

まず登場人物を整理する

論文にはDeepSeek-R1-ZeroとDeepSeek-R1という2つのモデルが登場する。ここを混同すると全体の話が分からなくなるので最初に整理しておく。

DeepSeek-R1-Zero：
  純粋な強化学習（RL）だけで訓練した実験モデル
  「SFT（教師あり学習）なしでも推論能力は獲得できるか？」を検証するために作った
  → できた。ただし問題もあった。

DeepSeek-R1：
  R1-Zeroの問題を解決した実用モデル
  Cold Startと4段階の訓練パイプラインを加えて仕上げた
  → OpenAI-o1と同等の性能を達成

この記事ではR1-Zeroの話を中心に、なぜ衝撃的だったかを深掘りし、後半でR1への改良を説明する。

従来の訓練と何が違うのか

LLMの訓練は大きく2段階ある。

事前訓練（Pre-training）： インターネット上の膨大なテキストを読み込んで「言語を理解する能力」を獲得する段階。人間で言えば「幼少期からたくさん本を読んで語彙や文法を身につける」イメージだ。コストが非常に高い。

事後訓練（Post-training）： 事前訓練済みのモデルをベースに、特定のタスクや振る舞いに合わせて調整する段階。SFT（Supervised Fine-Tuning）と呼ばれる手法が一般的で、「良い回答の例」を人間が大量に用意してそれを正解として学習させる。

SFTの問題は「良い例を用意するのが大変」という点にある。特に「段階的に考えて答える推論プロセス」の例を作るには、専門家が一問一問丁寧に解説を書く必要があり、コストが膨大になる。

DeepSeek-R1-Zeroが示したのは、このSFTのステップを一切使わなくても、RLだけで推論能力を獲得できるということだ。

従来の推論モデル訓練：
  ベースモデル → SFT（良い思考プロセスの例を大量に用意）→ RL

DeepSeek-R1-Zero：
  ベースモデル → RL のみ（SFTなし）

「良い思考プロセスのデータを用意しなくていい」ということは、コストと手間が大幅に下がることを意味する。

GRPOとは何か：訓練の核心

RLでLLMを訓練するとき、代表的な手法がPPO（Proximal Policy Optimization）だ。

PPOの仕組みを簡単に言うと、「今の回答がどれくらい良いか」を別の評価モデル（Critic）に採点させて、その点数をもとにモデルを改善していく。問題は、この評価モデルがメインモデルと同じくらい大きいため、2つ分の計算リソースと訓練コストがかかるという点だ。

DeepSeek-R1-Zeroが採用したのは GRPO（Group Relative Policy Optimization） という手法だ。

GRPOの発想は「絶対評価より相対評価でいい」というものだ。

1つの問題に対して、複数の回答（グループ）を生成する
  ↓
グループ内で相対的に「良い回答」と「悪い回答」を比較する
  ↓
良い回答の確率を上げ、悪い回答の確率を下げるように更新する

クラスのテストで例えると、全員の点数を外部の採点官が絶対評価するのではなく、「同じ問題を解いた5人の中で誰が一番良かったか」という相対評価で判断する、というイメージだ。

PPOとの最大の違いは、Criticモデルが不要という点だ。グループ内の相対スコアを使うことで、別途「この回答はどれくらい良いか」を評価するモデルを訓練しなくていい。これがコスト削減に大きく貢献している。

報酬設計がシンプルなのも重要

RLで何を「良い行動」と判断するか、つまり報酬設計はRLの中で最も難しいパートの一つだ。報酬の設計が悪いと、モデルは「本当の目標」ではなく「報酬を稼ぐための抜け道」を学んでしまう。

論文によれば、DeepSeek-R1-Zeroの報酬はシンプルに2つだけで構成されている。

① 正解報酬（Accuracy Reward）
答えが正しければ報酬を与える。数学の問題なら答えが合っているか、コーディング問題ならテストケースが通るかで判定する。採点が機械的にできるため、自動化・スケールが容易。

② フォーマット報酬（Format Reward）
思考プロセスを<think>タグと</think>タグで囲んでいるかどうかを確認する。

正しいフォーマット：
<think>
ここで考える
</think>
<answer>答え</answer>

これだけだ。「どんな内容で考えるか」は一切指定していない。形式だけを要求している。

なぜ神経報酬モデルを使わなかったのか

より高精度な報酬を与えるために「神経報酬モデル（Neural Reward Model）」という別のAIに採点させる手法もある。しかし論文によれば、DeepSeekはあえてこれを使わなかった。

論文が挙げる理由は Reward Hacking（報酬ハッキング） のリスクだ。

Reward Hackingとは、モデルが「本当に良い答えを出す」のではなく「採点モデルが高評価をつけやすいパターンを覚えてしまう」現象だ。たとえば「採点モデルは長い回答を好む」という傾向があると、モデルは実際の内容に関係なく回答を水増しするようになる。これはAIの世界で「ゲーム理論的な抜け道」と呼ばれる問題だ。

Reward Hackingが起きると採点モデルを再訓練しなければならず、そのコストも馬鹿にならない。ルールベースの報酬（正解か不正解か）にすることで、このリスクを根本から回避している。

Aha momentの正体：論文から実際の例を見る

論文には、実際にAha momentが起きた際のモデルの出力が掲載されている。数学の問題を解いている途中、モデルがこう出力した。

…x^4 - 2ax^2 - x + (a^2 - a) = 0
…

Wait, wait. Wait. That's an aha moment I can flag here.
Let's reevaluate this step-by-step to identify if the correct sum can be…

「Wait, wait. Wait.」と自分で立ち止まり、アプローチを見直している。

なぜこれが衝撃的なのか

「自己修正するAI」と聞くと当たり前に思えるかもしれない。しかし重要なのはこれが　「そうしろ」と教えられた結果ではない　という点だ。

論文では訓練テンプレートについて明示的に記述されており、「内容に関するバイアスは一切与えなかった。反省的な推論を強制したり、特定の問題解決戦略を促したりしなかった」と書かれている。

つまりこういうことだ：

モデルに渡したのは「<think>タグの中で考えなさい」という形式の指定のみ
「間違えたら立ち止まりなさい」「アプローチを見直しなさい」とは一切指示していない
にもかかわらず、「正解すると報酬が得られる」という環境の中でRLを回したら、自己修正という戦略をモデル自身が発見した

これは人間に置き換えると「テストの点数だけ評価する環境においたら、誰も教えていないのに子どもが自分でノートの見直し方法を発明した」に近い驚きだ。

論文では研究者自身もこの現象への驚きを記しており、「問題の解き方を明示的に教えるのではなく、適切なインセンティブを与えるだけでモデルが自律的に高度な問題解決戦略を発展させる」という趣旨が述べられている（筆者訳・要約）。

数字で見る成長

RLの訓練を進めるにつれて、モデルのパフォーマンスがどう変化したかを示す数字がある。

ベンチマークはAIME 2024（アメリカの難関数学競技。高校生向けだが、大学レベルの問題も含む難関試験）。

訓練前（ベースモデル）：15.6%
RLによる訓練後（pass@1）：71.0%
多数決（majority voting）適用後：86.7%
OpenAI-o1-0912：約83%

pass@1とは「1回の回答で正解する割合」だ。majority votingは「複数回答えさせて多数決を取る」方法で、確率的なブレを平均化することでさらに精度を上げられる。

訓練中、もう一つ観測された現象がある。「思考トークンの長さ」が自然に伸びていったことだ。モデルは誰にも指示されていないのに、複雑な問題に対してより長く考えるようになっていった。

これも自己修正と同じ構造だ。「より長く考えると正解しやすい」ことをモデルがRLを通じて自分で発見し、その戦略を自発的に採用するようになった。

R1-Zeroの問題点

R1-Zeroは強力だったが、論文では実用上の問題も率直に記されている。

可読性の低さ： 思考プロセスが人間にとって読みにくい形式になりやすかった。RLが「正解すること」だけを最適化した結果、人間にとって自然な文章よりも効率重視の出力になりがちだった。

言語の混在： 日本語で質問しているのに、思考プロセスの途中で突然中国語や英語が混ざるケースが発生した。

これはどちらも報酬設計の副作用だ。RLは「報酬を最大化すること」だけを考える。「人間にとって読みやすいかどうか」「一貫した言語を使うかどうか」は報酬に含まれていないため、モデルはそれを気にしない。

R1での解決策：Cold Startと4段階パイプライン

これらの問題を解決するために作られたのがDeepSeek-R1だ。

Cold Startとは

R1-Zeroの問題は「RLの出発点（初期状態）が荒削りすぎること」にあった。

たとえばスポーツの強化選手を育てるとき、「実戦だけやらせて経験から学ばせる」のか「基礎練習を少しやってから実戦に出すか」では、後者の方が効率的に上達することが多い。Cold Startはこの「最初の基礎練習」に相当する。

少量の高品質な思考データを最初に与えてSFTで軽く訓練し、「どんな形式で考えるか」の土台を作ってからRLをかける。これをCold Startと呼ぶ。

R1-Zeroのアプローチ：
ベースモデル ─── RL ───→ 強いが読みにくい

R1のアプローチ：
ベースモデル → Cold Start SFT（少量の高品質データ）→ RL ───→ 強くて読みやすい

4段階の訓練パイプライン

R1の訓練は全4ステップで構成されている。

Step 1：Cold Startデータで少量SFT
  少量の長いCoTデータでベースモデルを軽くファインチューニング
  → 「思考の土台」を作る

Step 2：推論タスクに特化したRL
  R1-Zeroと同様のRLをかける。Cold Startで土台があるので安定して訓練が進む
  → 推論能力を伸ばす

Step 3：Rejection SamplingでSFTデータ生成 → 再度SFT
  RL収束後のモデルに大量の問題を解かせ、正解した思考プロセスだけを
  高品質なSFTデータとして収集し、再訓練する
  → RLが発見した「良い考え方」を固定する

Step 4：全シナリオ対応のRL
  推論だけでなく、一般会話や安全性も含めた幅広いタスクでRL
  → 実用的なアシスタントとして仕上げる

Step 3の「Rejection Sampling」はやや聞き慣れない言葉だが、仕組みはシンプルだ。「モデルに大量の問題を解かせて、正解した回答だけを採用し（不正解は捨てる）、その採用された思考プロセスをデータにする」という方法だ。不合格品を弾く検品作業に近いイメージで、「モデル自身が生み出した高品質な思考パターン」だけを集めることができる。

このパイプラインのポイントは、RL → SFTデータ生成 → SFT → RLというループだ。RLで発見した良い思考パターンをSFTデータとして固定し、さらにRLをかけることで品質を高めていく。

蒸留（Distillation）：小さいモデルへの知識転送

論文のもう一つの重要な貢献が蒸留だ。

蒸留とは「大きいモデルが学んだ知識を小さいモデルに移す」手法だ。先生（大きいモデル）が問題を解く様子を見せて、生徒（小さいモデル）がそれを真似て学ぶイメージだ。

DeepSeek-R1の思考プロセス（出力データ）を使って、1.5B・7B・8B・14B・32B・70Bという小さいモデルを訓練した。

この実験で示された重要な発見がある。「小さいモデルに直接RLをかけるより、大きいモデルの出力で蒸留した方が性能が高い」 ということだ。

蒸留したDeepSeek-R1-Distill-Qwen-7B：AIME 2024で55.5%
比較：QwQ-32B-Preview（32Bモデル）：約50%

7Bのモデルが32Bのモデルを超えている。

なぜ蒸留の方が直接RLより効くのか。論文では次のように説明されている。小さいモデルだけでRLをかけると、そのモデルのキャパシティの範囲内でしか「良い考え方」を発見できない。しかし大きいモデルが発見した「高品質な推論パターン」を教師データとして与えると、小さいモデルはそのパターンを初めから知った状態でスタートできる。

「大きいモデルが発見した推論パターンは、小さいモデルにも移植できる」という知見は、今後の研究に大きな影響を与えている。

なぜ業界に衝撃だったか

技術的な詳細を踏まえた上で、改めてインパクトを整理する。

① SFTなしでo1レベルを達成した

それまで「推論能力のあるモデルを作るには、大量の人手でアノテーションした思考データが必要」という前提があった。R1-Zeroはそれを覆した。

② 訓練手法をすべて公開した

OpenAIはo1の訓練手法を非公開にしている。DeepSeekは論文でGRPO・Cold Start・4段階パイプラインのすべてを公開し、さらにモデルの重みもMITライセンスで公開した。これにより世界中の研究者が追試・改良できるようになった。

③ 「お金があれば勝てる」という前提を崩した

DeepSeek-R1の訓練コストはOpenAI-o1の推定訓練コストと比べて桁が違うと言われている。米中AI競争の文脈で「アメリカの大規模投資が必要条件ではないかもしれない」という議論に火をつけた。NVIDIAの株価が一時17%近く下落したのも、この文脈でGPU需要への疑問が広がったからだ。

まとめ

DeepSeek-R1-ZeroはSFTなしの純粋なRLで推論能力を獲得した
GRPOによってCriticモデルが不要になり、コストを大幅削減
報酬設計はシンプルな2つのルールだけ（正解・フォーマット）
Aha momentは設計されたものではなく、RLの結果として自然発生した
R1ではCold Startと4段階パイプラインで実用上の問題を解決
蒸留によって、大モデルの推論パターンを小モデルに移植できることも示した

参考

元論文：https://arxiv.org/abs/2501.12948
DeepSeek-R1 モデル：https://huggingface.co/deepseek-ai/DeepSeek-R1

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up