@ymgc3in

DeepSeek論文を読む

Posted at 2025-01-28

はじめに

DeepSeek-R1 と DeepSeekMath の2つの論文を読む
特に注目すべき技術的革新
- ルールベース報酬による効率的な強化学習の実現
- 思考プロセスの自発的な獲得
- 蒸留と強化学習の比較による知見

サマリ

どういう論文？

DeepSeek-V3-Baseに強化学習を適用し、思考能力を大幅に向上させた研究
強化学習のみのモデル(R1-Zero)と、SFTを組み合わせたモデル(R1)を比較
大規模モデルの知識を小型モデルへ効率的に転移する手法も提案

先行研究と比べてすごい点

報酬モデルと状態価値モデルを不要にし、計算コストを大幅削減
ルールベース報酬だけで高度な思考能力を獲得
モデル構造を変えずに、学習方法の工夫だけでGPT-4レベルの性能を実現

技術や方法のポイント

GRPOによる効率的な強化学習の実装
数学問題の正答性のみを報酬とした単純な報酬設計
SFTと強化学習を組み合わせた段階的な学習プロセス
言語一貫性報酬の導入による出力品質の向上

有効性の検証方法

数学・論理問題での性能評価でGPT-4と同等の結果
Aha Momentの発見による思考能力の定性的評価
小型モデルでの蒸留と強化学習の比較実験による手法の妥当性確認

DeepSeek-R1-Zero の開発

DeepSeek-V3-Base (681Bパラメータ) をベースモデルとして採用
強化学習手法の革新
- GRPOの採用により状態価値モデルを不要化
- 複数文章の生成と報酬の平均化による効率的な学習
- PPOと比較して計算コストを大幅に削減
ルールベース報酬システムの設計
- 精度報酬：数学問題等の正答性評価
- フォーマット報酬：タグによる思考プロセスの構造化
- ニューラルネットワークベースの報酬モデルを完全に排除
システムプロンプトの工夫
- 思考プロセスと回答を明確に分離
- タグベースの構造化された出力形式の強制
"Aha Moment"の発見と意義
- 推論途中での自己修正能力の獲得
- ステップバイステップでの問題解決戦略の自発的な発展
- 明示的な教示なしでの高度な思考プロセスの獲得

DeepSeek-R1-Zero の課題

学習安定性の問題
- 初期段階での学習収束の遅さ
- コールドスタート問題による学習効率の低下
出力品質の課題
- 複数言語の無秩序な混在
- 人間にとっての可読性の低さ
タスク適用範囲の限界
- 高度な思考タスクには強い一方、基本的なタスクで性能低下
- ロールプレイや一般的な会話での使用困難

DeepSeek-R1 の開発プロセス

初期段階のSFT実装
- CoTデータセットの独自構築
- 長考形式の回答パターンの学習
- 自己反省メカニズムの組み込み
強化学習の改良
- 言語一貫性報酬の導入
- 思考能力と可読性のバランス最適化
大規模な追加学習データの構築

Reasoning Data (600k)
- 強化学習済みモデルの高品質な出力の選別
- 広範な思考タスクのカバレッジ
- 厳密なフィルタリング基準の適用
Non-Reasoning Data (200k)
- DeepSeek-V3のSFTデータの再利用
- 簡易CoT形式での回答生成
- タスク別の最適な学習データ構造の設計

最終段階の強化学習
- 思考能力の更なる向上
- モデルの安全性と信頼性の強化
- ドメイン別の適切な報酬設計

蒸留モデルの開発

対象モデルの多様性
- Qwen2.5シリーズ (1.5B～32B)
- Llamaシリーズ (8B～70B)
蒸留プロセスの特徴
- 800kの高品質トレーニングサンプルの活用
- 直接ファインチューニングによる効率的な知識転移
強化学習との比較実験
- Qwen-32B-Baseでの検証実験
- 蒸留の優位性の実証
- 小型モデルにおける強化学習の限界の発見

今後の課題

機能面の制約
- 関数呼び出しの制限
- マルチターン対話の不安定性
- 複雑なロールプレイの品質低下
言語処理の課題
- 英語・中国語以外での言語混在
- 多言語処理の最適化必要性
プロンプト依存性
- Few-shotプロンプトでの性能低下
- Zero-shotプロンプトの推奨
技術的制約
- ソフトウェアエンジニアリングタスクでの性能限界
- 評価時間の長いタスクでの強化学習の非効率性

用語まとめ

カテゴリ	用語	説明
AI学習手法	CoT	Chain of Thought（思考の連鎖）の略。段階的な推論プロセスを示す学習方式
AI学習手法	DPO	Direct Policy Optimization の略。強化学習を使わずにLLMの挙動を最適化する手法
AI学習手法	GRPO	Group Relative Policy Optimization の略。状態価値モデルを不要とした効率的な強化学習手法
AI学習手法	PPO	Proximal Policy Optimization の略。方策最適化を行う強化学習アルゴリズム
AI学習手法	RLHF	Reinforcement Learning from Human Feedback の略。人間のフィードバックを用いた強化学習
AI学習手法	SFT	Supervised Fine-Tuning の略。教師あり学習による事前学習モデルの微調整
AI学習手法	Zero-shot	事前の例示なしでタスクを実行する能力
AI学習手法	強化学習	試行錯誤を通じて報酬を最大化する学習手法
AI学習手法	蒸留	大規模モデルの知識を小規模モデルに転移する技術
モデルアーキテクチャ	DeepSeek-R1	DeepSeek社が開発した高度な推論能力を持つLLM
モデルアーキテクチャ	DeepSeek-R1-Zero	強化学習のみで学習されたDeepSeek-R1の前身モデル
モデルアーキテクチャ	DeepSeek-V3-Base	DeepSeek-R1のベースとなった事前学習済みモデル
モデルアーキテクチャ	Llama	Meta社が開発したオープンソースLLM
モデルアーキテクチャ	Qwen	Alibaba社が開発したLLMシリーズ
方策	Advantage	期待される累積報酬と実際の累積報酬の差分
方策	状態価値	現在の状態から将来得られると期待される報酬の総和
方策	方策モデル	各状態での行動選択確率を出力するモデル
報酬設計	フォーマット報酬	出力形式の正しさに基づく報酬
報酬設計	ルールベース報酬	事前に定義された規則に基づく報酬計算手法
報酬設計	言語一貫性報酬	出力言語の一貫性を保つための報酬
報酬設計	精度報酬	出力の正確さに基づく報酬

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up