はじめに
- DeepSeek-R1 と DeepSeekMath の2つの論文を読む
- 特に注目すべき技術的革新
- ルールベース報酬による効率的な強化学習の実現
- 思考プロセスの自発的な獲得
- 蒸留と強化学習の比較による知見
サマリ
どういう論文?
- DeepSeek-V3-Baseに強化学習を適用し、思考能力を大幅に向上させた研究
- 強化学習のみのモデル(R1-Zero)と、SFTを組み合わせたモデル(R1)を比較
- 大規模モデルの知識を小型モデルへ効率的に転移する手法も提案
先行研究と比べてすごい点
- 報酬モデルと状態価値モデルを不要にし、計算コストを大幅削減
- ルールベース報酬だけで高度な思考能力を獲得
- モデル構造を変えずに、学習方法の工夫だけでGPT-4レベルの性能を実現
技術や方法のポイント
- GRPOによる効率的な強化学習の実装
- 数学問題の正答性のみを報酬とした単純な報酬設計
- SFTと強化学習を組み合わせた段階的な学習プロセス
- 言語一貫性報酬の導入による出力品質の向上
有効性の検証方法
- 数学・論理問題での性能評価でGPT-4と同等の結果
- Aha Momentの発見による思考能力の定性的評価
- 小型モデルでの蒸留と強化学習の比較実験による手法の妥当性確認
DeepSeek-R1-Zero の開発
-
DeepSeek-V3-Base (681Bパラメータ) をベースモデルとして採用
-
強化学習手法の革新
- GRPOの採用により状態価値モデルを不要化
- 複数文章の生成と報酬の平均化による効率的な学習
- PPOと比較して計算コストを大幅に削減
-
ルールベース報酬システムの設計
- 精度報酬:数学問題等の正答性評価
- フォーマット報酬:タグによる思考プロセスの構造化
- ニューラルネットワークベースの報酬モデルを完全に排除
-
システムプロンプトの工夫
- 思考プロセスと回答を明確に分離
- タグベースの構造化された出力形式の強制
-
"Aha Moment"の発見と意義
- 推論途中での自己修正能力の獲得
- ステップバイステップでの問題解決戦略の自発的な発展
- 明示的な教示なしでの高度な思考プロセスの獲得
DeepSeek-R1-Zero の課題
-
学習安定性の問題
- 初期段階での学習収束の遅さ
- コールドスタート問題による学習効率の低下
-
出力品質の課題
- 複数言語の無秩序な混在
- 人間にとっての可読性の低さ
-
タスク適用範囲の限界
- 高度な思考タスクには強い一方、基本的なタスクで性能低下
- ロールプレイや一般的な会話での使用困難
DeepSeek-R1 の開発プロセス
-
初期段階のSFT実装
- CoTデータセットの独自構築
- 長考形式の回答パターンの学習
- 自己反省メカニズムの組み込み
-
強化学習の改良
- 言語一貫性報酬の導入
- 思考能力と可読性のバランス最適化
-
大規模な追加学習データの構築
-
Reasoning Data (600k)
- 強化学習済みモデルの高品質な出力の選別
- 広範な思考タスクのカバレッジ
- 厳密なフィルタリング基準の適用
-
Non-Reasoning Data (200k)
- DeepSeek-V3のSFTデータの再利用
- 簡易CoT形式での回答生成
- タスク別の最適な学習データ構造の設計
- 最終段階の強化学習
- 思考能力の更なる向上
- モデルの安全性と信頼性の強化
- ドメイン別の適切な報酬設計
蒸留モデルの開発
-
対象モデルの多様性
- Qwen2.5シリーズ (1.5B~32B)
- Llamaシリーズ (8B~70B)
-
蒸留プロセスの特徴
- 800kの高品質トレーニングサンプルの活用
- 直接ファインチューニングによる効率的な知識転移
-
強化学習との比較実験
- Qwen-32B-Baseでの検証実験
- 蒸留の優位性の実証
- 小型モデルにおける強化学習の限界の発見
今後の課題
-
機能面の制約
- 関数呼び出しの制限
- マルチターン対話の不安定性
- 複雑なロールプレイの品質低下
-
言語処理の課題
- 英語・中国語以外での言語混在
- 多言語処理の最適化必要性
-
プロンプト依存性
- Few-shotプロンプトでの性能低下
- Zero-shotプロンプトの推奨
-
技術的制約
- ソフトウェアエンジニアリングタスクでの性能限界
- 評価時間の長いタスクでの強化学習の非効率性
用語まとめ
カテゴリ | 用語 | 説明 |
---|---|---|
AI学習手法 | CoT | Chain of Thought(思考の連鎖)の略。段階的な推論プロセスを示す学習方式 |
AI学習手法 | DPO | Direct Policy Optimization の略。強化学習を使わずにLLMの挙動を最適化する手法 |
AI学習手法 | GRPO | Group Relative Policy Optimization の略。状態価値モデルを不要とした効率的な強化学習手法 |
AI学習手法 | PPO | Proximal Policy Optimization の略。方策最適化を行う強化学習アルゴリズム |
AI学習手法 | RLHF | Reinforcement Learning from Human Feedback の略。人間のフィードバックを用いた強化学習 |
AI学習手法 | SFT | Supervised Fine-Tuning の略。教師あり学習による事前学習モデルの微調整 |
AI学習手法 | Zero-shot | 事前の例示なしでタスクを実行する能力 |
AI学習手法 | 強化学習 | 試行錯誤を通じて報酬を最大化する学習手法 |
AI学習手法 | 蒸留 | 大規模モデルの知識を小規模モデルに転移する技術 |
モデルアーキテクチャ | DeepSeek-R1 | DeepSeek社が開発した高度な推論能力を持つLLM |
モデルアーキテクチャ | DeepSeek-R1-Zero | 強化学習のみで学習されたDeepSeek-R1の前身モデル |
モデルアーキテクチャ | DeepSeek-V3-Base | DeepSeek-R1のベースとなった事前学習済みモデル |
モデルアーキテクチャ | Llama | Meta社が開発したオープンソースLLM |
モデルアーキテクチャ | Qwen | Alibaba社が開発したLLMシリーズ |
方策 | Advantage | 期待される累積報酬と実際の累積報酬の差分 |
方策 | 状態価値 | 現在の状態から将来得られると期待される報酬の総和 |
方策 | 方策モデル | 各状態での行動選択確率を出力するモデル |
報酬設計 | フォーマット報酬 | 出力形式の正しさに基づく報酬 |
報酬設計 | ルールベース報酬 | 事前に定義された規則に基づく報酬計算手法 |
報酬設計 | 言語一貫性報酬 | 出力言語の一貫性を保つための報酬 |
報酬設計 | 精度報酬 | 出力の正確さに基づく報酬 |