今日の話題
- DeepSeekと北京大学が、LLMの推論を高速化する投機的デコーディングのフレームワーク「DSpark」をオープンソースで公開した。DeepSeek-V4の本番運用では、スループットを維持したまま生成速度を最大85%高めたとしている。
Research
DeepSeekが投機的デコーディングのフレームワーク「DSpark」をオープンソースで公開
DeepSeekと北京大学の研究チームが、LLMの推論を高速化する投機的デコーディングのフレームワーク「DSpark」を公開した。投機的デコーディングは、軽量なドラフトモデルが複数トークンの候補をまとめて提案し、本体モデルが1回のフォワードパスで検証する手法だが、候補を並列に生成する方式はトークン間の依存関係を捉えられず、ブロックの後半ほど採択率が下がりやすい。DSparkは、並列に動くバックボーンに軽量な逐次ヘッドを組み合わせる「半自己回帰」アーキテクチャでこれを補い、さらに採択される見込みの高いトークンにだけ計算資源を振り向ける信頼度スケジューリングを導入した。論文によると、DeepSeek-V4の本番サービスでMTP-1ベースラインとスループット全体を同等に保ちながら、ユーザー1人あたりの生成速度をV4-Flashで60〜85%、V4-Proで57〜78%引き上げた。学習・評価コード一式の「DeepSpec」と、DeepSeek-V4-Flash/V4-Pro向けのDSparkチェックポイントは、MITライセンスでオープンソース公開されている。
Source: https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf
Source: https://github.com/deepseek-ai/DeepSpec