"DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models" という論文の紹介です。
この論文は、GPT-5 や Gemini-3.0-Pro といったクローズドモデルとの性能差が広がり続けている現状に対し、オープンソースモデルでも本気で追いつきにいく方法を示した研究です。
何を解決しようとしている論文か
著者らは、現在のオープンソース LLM が抱える課題を次の3点に整理しています。
- 長文文脈を扱う際の アーキテクチャ的な非効率
- 推論能力を高めるための Post-Trainingへの計算投資不足
- エージェント的タスク(ツール利用・複数ステップ推論)の訓練データ不足
モデルのサイズや事前学習だけ頑張っても、「考える力」や「道具を使う力」が育ちにくい、という問題意識です。(少し日本語がずれているかもしれません)
DeepSeek-V3.2 の中心アイデア
アイデアの中心は、
**「計算を節約できるところは徹底的に節約し、その分を思考力の学習に回す」**という設計思想です。
長文処理を効率化することで計算コストを下げ、
その“浮いた計算資源”を 大規模な強化学習(RL)による Post-Training に投入します。
この研究では Post-Training に事前学習コストの 10% 以上 を投入しています。
これは従来のオープンモデルではほとんど見られなかった規模らしいです。
成功を支える3つの技術的柱
1. DeepSeek Sparse Attention(DSA)
長文処理のボトルネックとなる Attention を刷新しています。
DSA では、
- Lightning Indexer:軽量に重要度スコアを計算
- Top-k トークン選択:関連性の高い key-value のみ参照
という構成を取り、全トークンに注意を向ける従来の Dense Attention を置き換えています。
「全部を見る」のをやめて、「重要なところだけを見る」ことで計算量を抑えた、というイメージです。
これにより、Attention の計算量は
O(L²) → 実質 O(L·k) に削減され、
長文でも速度と精度を両立できるようになっています。
2. 超大規模にスケールした強化学習(GRPO)
DeepSeek-V3.2 では Group Relative Policy Optimization(GRPO) を前例のない規模で適用しています。
ただし、大規模 RL には学習が不安定になる問題があるため、
- Unbiased KL Estimate(系統誤差の除去)
- Off-Policy Sequence Masking(誤学習の防止)
といった工夫が導入されています。
「壊れずに」かつ「大量に」回し切る仕組みを設計しています。
3. 大規模エージェントタスク合成
現実的なエージェントデータが不足している問題に対し、 タスクそのものを自動生成するパイプラインを構築しました。
- 1,800以上の環境
- 約85,000の複雑なプロンプト
- ツール構築・検証可能な解答生成まで含む
最も重要な結果
クローズドモデルとの差を本気で縮めた
DeepSeek-V3.2 は、複数の推論ベンチマークにおいて
- GPT-5-High
- Kimi-k2-Thinking
と 同等レベルの性能 を示しました。
さらに高計算版である DeepSeek-V3.2-Speciale は、
- GPT-5 を上回る結果
- Gemini-3.0-Pro と同等水準
を達成しています。
「考え続ける」ことで金メダル級の推論力へ
Speciale 版では、 思考を長く展開することを許す設定で学習が行われました。
その結果、
- 2025 IMO(国際数学オリンピック)
- IOI(国際情報オリンピック)
で 金メダル相当の成績 を達成しています。
まとめ
計算リソースの配分を変えるというシンプルな戦略でした。OpenAI や Google などの会社に勝てる謹製の生成AIを開発する戦略としては、サイズ競争では立ち行かないということで合理的な方法のように見えます。


