0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

DeepSeek-V4

0
Posted at

https://www.alphaxiv.org/overview/deepseek-v4 を読んだメモです。

書誌情報

研究機関:DeepSeek-AI

  • DeepSeek-V4-Flash(238B-A13B)とDeepSeek-V4-Pro(1.6T-A49B)のバリエーション
  • DeepSeek-V4は、1Mトークンのコンテキスト長に対応(Gemma 4も1Mトークン)
  • アーキテクチャはFigure 2を参照
  • アーキテクチャではmHCを導入
  • 推論ではMulti-token predictionを導入。高速にデコードする技術
  • CSA (Compressed Sparse Attention)では、4トークン毎に1つのエントリー(KVキャッシュの保存単位)に圧縮する(Figure 3)
    • 圧縮は、重みづけ和である(9~12式)
    • 更に、DSA (DeepSeek Sparse Attention)が、圧縮されたエントリーのtop-kのみ参照するようにし、疎なアテンションを計算する
  • HCA (Heavily Compressed Attention)では、128トークン毎に1つのエントリーに圧縮する(Figure 4)
    • HCAでは、密にアテンションする
  • 以上のような仕組みで、コンテキスト長の2乗に比例する部分の計算量を減らすことによって、長いコンテキスト長でも処理できるようにしている
  • DeepSeek-V4ではMLAは採用されていない。CSAとHCAで置き換えている
  • 学習はMuon Optimizer. Newton-Schulz反復(28式)を使って収束を高速化する
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?