https://www.alphaxiv.org/overview/deepseek-v4 を読んだメモです。
書誌情報
研究機関:DeepSeek-AI
- DeepSeek-V4-Flash(238B-A13B)とDeepSeek-V4-Pro(1.6T-A49B)のバリエーション
- DeepSeek-V4は、1Mトークンのコンテキスト長に対応(Gemma 4も1Mトークン)
- アーキテクチャはFigure 2を参照
- アーキテクチャではmHCを導入
- 推論ではMulti-token predictionを導入。高速にデコードする技術
- CSA (Compressed Sparse Attention)では、4トークン毎に1つのエントリー(KVキャッシュの保存単位)に圧縮する(Figure 3)
- 圧縮は、重みづけ和である(9~12式)
- 更に、DSA (DeepSeek Sparse Attention)が、圧縮されたエントリーのtop-kのみ参照するようにし、疎なアテンションを計算する
- HCA (Heavily Compressed Attention)では、128トークン毎に1つのエントリーに圧縮する(Figure 4)
- HCAでは、密にアテンションする
- 以上のような仕組みで、コンテキスト長の2乗に比例する部分の計算量を減らすことによって、長いコンテキスト長でも処理できるようにしている
- DeepSeek-V4ではMLAは採用されていない。CSAとHCAで置き換えている
- 学習はMuon Optimizer. Newton-Schulz反復(28式)を使って収束を高速化する