DeepSeek-V4

Posted at 2026-04-26

書誌情報

研究機関：DeepSeek-AI

DeepSeek-V4-Flash(238B-A13B)とDeepSeek-V4-Pro(1.6T-A49B)のバリエーション
DeepSeek-V4は、1Mトークンのコンテキスト長に対応(Gemma 4も1Mトークン)
アーキテクチャはFigure 2を参照
アーキテクチャではmHCを導入
推論ではMulti-token predictionを導入。高速にデコードする技術
CSA (Compressed Sparse Attention)では、4トークン毎に1つのエントリー(KVキャッシュの保存単位)に圧縮する(Figure 3)
- 圧縮は、重みづけ和である(9~12式)
- 更に、DSA (DeepSeek Sparse Attention)が、圧縮されたエントリーのtop-kのみ参照するようにし、疎なアテンションを計算する
HCA (Heavily Compressed Attention)では、128トークン毎に1つのエントリーに圧縮する(Figure 4)
- HCAでは、密にアテンションする
以上のような仕組みで、コンテキスト長の2乗に比例する部分の計算量を減らすことによって、長いコンテキスト長でも処理できるようにしている
DeepSeek-V4ではMLAは採用されていない。CSAとHCAで置き換えている
学習はMuon Optimizer. Newton-Schulz反復(28式)を使って収束を高速化する