arXiv Advent Calendar 2025

DeepSeek-V3.2 が示したオープンLLMの進化ルート

Posted at 2025-12-25

"DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models" という論文の紹介です。

この論文は、GPT-5 や Gemini-3.0-Pro といったクローズドモデルとの性能差が広がり続けている現状に対し、オープンソースモデルでも本気で追いつきにいく方法を示した研究です。

何を解決しようとしている論文か

著者らは、現在のオープンソース LLM が抱える課題を次の3点に整理しています。

モデルのサイズや事前学習だけ頑張っても、「考える力」や「道具を使う力」が育ちにくい、という問題意識です。(少し日本語がずれているかもしれません)

アイデアの中心は、
**「計算を節約できるところは徹底的に節約し、その分を思考力の学習に回す」**という設計思想です。

長文処理を効率化することで計算コストを下げ、
その“浮いた計算資源”を 大規模な強化学習（RL）による Post-Training に投入します。

この研究では Post-Training に事前学習コストの 10% 以上 を投入しています。
これは従来のオープンモデルではほとんど見られなかった規模らしいです。

長文処理のボトルネックとなる Attention を刷新しています。

DSA では、

という構成を取り、全トークンに注意を向ける従来の Dense Attention を置き換えています。

「全部を見る」のをやめて、「重要なところだけを見る」ことで計算量を抑えた、というイメージです。

これにより、Attention の計算量は
O(L²) → 実質 O(L·k) に削減され、
長文でも速度と精度を両立できるようになっています。

DeepSeek-V3.2 では Group Relative Policy Optimization（GRPO） を前例のない規模で適用しています。

ただし、大規模 RL には学習が不安定になる問題があるため、

といった工夫が導入されています。

「壊れずに」かつ「大量に」回し切る仕組みを設計しています。

現実的なエージェントデータが不足している問題に対し、 タスクそのものを自動生成するパイプラインを構築しました。

DeepSeek-V3.2 は、複数の推論ベンチマークにおいて

と 同等レベルの性能 を示しました。

さらに高計算版である DeepSeek-V3.2-Speciale は、

を達成しています。

Speciale 版では、思考を長く展開することを許す設定で学習が行われました。

その結果、

で 金メダル相当の成績 を達成しています。

計算リソースの配分を変えるというシンプルな戦略でした。OpenAI や Google などの会社に勝てる謹製の生成AIを開発する戦略としては、サイズ競争では立ち行かないということで合理的な方法のように見えます。