DeepSeek（2. 2024年ごろ：DeepSeek-MoE、DeepSeek Math、DeepSeek-Coder V2、DeepSeek-V2/2.5/3）

Posted at 2025-04-22

本記事は下記の続きです。

DeepSeek-MoE

2024年1月、DeepSeekはモデルパラメータをスケールアップする際の計算コストを管理するための有望なアーキテクチャとしてMoEに注目し、DeepSeek-MoEというモデルを発表した¹。モデルサイズが16.4Bのもので、他のオープンソースモデルを凌駕する性能を記録した²。DeepSeek-MoEでは、下記2つのMoE戦略により、性能向上を試みた¹³。

Fine-Grained Expert Segmentation
- Expertを細分化し、通常のMoEより柔軟で適応性の高い組み合わせを可能にする
Shared Expert Isolation
- 各Expertに必要だった共通知識的なものを担うExpert（Shared Expert）を用意しその他のExpertの専門性を高める

DeepSeekMoE performance

Illustration of DeepSeekMoE

DeepSeek-Math, DeepSeek-Prover (V1)/V1.5

2024年1月、DeepSeekは数学的推論へのアプローチを行うDeepSeek-Mathというモデル（DeepSeek-Math-7B-Base/DeepSeek-Math-7B-Instruct/DeepSeek-Math-7B-RL）を発表した⁴。DeepSeek-Mathは、DeepSeek-Coder-v1.5 7Bを初期値とし、Common Crawlから取得した数学関連トークン、自然言語データ、コードデータを用いて5000億トークン分の事前学習を追加で行っており⁵、その他のオープンソースモデルに比べて高い性能を示したと謳われた。

Top1 accuracy of open-source models on the competition-level MATH benchmark

特に、DeepSeek-Math-7B-RLでは、LLMの強化学習ファインチューニングで用いられるProximal Policy Optimization (PPO)と呼ばれる手法⁶を派生させた、Group Relative Policy Optimization (GRPO)という強化学習アルゴリズムを導入している⁴。
GRPOは、ある状態である行動をとるメリットの指標であるアドバンテージの計算をValue Model（通常、Policy Modelと同等のモデルとなる）なしで行うこと、現在のポリシーと参照ポリシー (多くの場合、SFT モデル) のKLダイバージェンス（二つの確率分布の差を数値化したもの）を損失関数に直接組み込むことにより、PPOのメモリオーバーヘッドや不安定性といった弱点を低減している。

PPO vs GRPO

2024年5月、DeepSeekMath 7BをベースにファインチューニングされたDeepSeek-Proverと言うモデルが発表された⁷。Microsoft Reseachの研究者が立ち上げた関数型プログラミング言語Lean⁸を用いた検証などにより、限界まで改善が繰り返される事により、性能向上が図られた。

DeepSeek-Prover overview

また8月には、DeepSeek-Proverを拡張したDeepSeek-Prover-V1.5も発表された。前モデルのsingle-pass whole-proof generation approachを上回る多様な証明パスを生成するため、推論時にモンテカルロ木探索の変種であるRMaxTS（RMax applied to Tree Search）を提案し、miniF2F（高校レベルの数学問題集）およびProofNet（大学レベルの数学の定理）において最先端の結果を示した⁹。

DeepSeek-Prover-V1.5 overview

DeepSeek-Prover-V1.5 performance

DeepSeek-V2, V2.5, V3

2024年5月、DeepSeekLLMの後継となるDeepSeek-V2が発表された¹⁰¹¹。コンテキストウィンドウが128kでDeepSeek-MoEと同様のMoEの構成をとる（全体のモデルサイズは合計236Bであるが、トークンごとにアクティブとなるパラメータは21B）。
また、従来のTransformerで用いられていたMulti-Head Attention (MHA)機構では、生成時に大量のKey-Value(KV) キャッシュがボトルネックとなり推論効率を低下させているため、Mistral AI社によるGrouped-Query Attention（GQA）などが提案されてきたが、DeepSeek-V2ではKVキャッシュを潜在ベクトルに大幅に圧縮することで効率的な推論を可能にするMulti-head Latent Attention機構が採用された。

DeepSeek-V2 performance

DeepSeek-V2 architecture

MHA vs GQA vs MQA vs MLA

6月には、DeepSeek-V2-ChatのベースモデルをCoder-V2-baseに置き換えることでアップグレードを行い、コード生成と推論機能を大幅に強化、9月に、DeepSeek-V2をファインチューニングしたDeepSeek-V2-Instruct、DeepSeek-V2-Chatを組み合わせたDeepSeek-V2.5がリリースされた¹²。

Update to DeepSeek-V2.5

さらに12月、MoEの全体モデルサイズ671B、トークンごとのアクティブパラメータは37Bである、DeepSeek-V3がリリースされた。DeepSeek-V2.5より高性能であり、3倍の応答速度を記録している¹³。DeepSeek-V2で用いられたアーキテクチャを継承しつつ、従来のMoEモデルの学習時に補助損失を用いないAuxiliary-Loss-Free Load Balancingという戦略が提案され、負荷分散の促進に伴う性能低下を抑制した¹⁴。

MoEモデルの学習では、負荷の不均衡によりルーティングの崩壊や計算オーバーヘッドの増加が発生する可能性があった。ルーティングの不均衡を回避するために、一般的に補助損失を用いてExpert負荷のバランスを促進する対策がとられるが、補助損失は学習中の負荷の不均衡を軽減できますが、言語モデリングの目的と矛盾する望ましくない勾配もモデル性能を低下させるという課題も存在した。
そこで、学習中に不要な勾配を生じさせずに負荷バランスを制御するため、補助損失のない負荷分散戦略を特徴とするロスフリー・バランシングが提案された。¹⁵

DeepSeek-V3 performance

DeepSeek-VL/VL2

2024年3月、画像とテキスト入力を受け付けるマルチモーダルモデルであるDeepSeek-VL（Vision-Language）が発表された¹⁶。アーキテクチャは下記の通りである。

Vision Encoder: Hybrid Vision Encoder
- 高解像度画像（1024 x 1024）エンコーディング用のSAM（Segment Anything Model¹⁷）と低解像度画像（384 x 384）エンコーディング用のSigLIP（Sigmoid Loss for Language Image Pre-Training¹⁸）を組み合わせ、意味情報と詳細情報の両方を保持
Vision-Language Adaptor: 2層MLP（Multi-Layer Perceptron）
Language Model: DeepSeek LLM
- LLaMaを踏襲したDeepSeek製のLLM

SigLIPを含むCLIPファミリー（オリジナルのCLIPはOpenAI社が開発：OpenAI（3. 2021~2022年ごろ：DALL-E, CLIP, GLIDE, InstructGPT））のVision Encoderは、異なる画像が類似画像としてエンコードされてしまう現象（CLIP-blind pairs）が下記のタスクなどで課題となっていた。

Visual Grounding Task: 自然言語参照に基づいて画像領域を特定
高密度OCR（Optical Character Recognition）: 文字が密集した画像から文字情報を抽出

DeepSeek-VL pipeline

そして12月には、DeepSeek-VLにMoEを適用させるなどで、パフォーマンスと効率の両方で大幅な向上を実現したDeepSeek-VL2が発表された¹⁹。基本的にはMicrosoft社のLLaVAアーキテクチャを用いつつ、入力画像を分割してすることでさまざまなアスペクト比を持つ画像を処理できるようにするDynamic Tiling Strategy、DeepSeek LLMをDeepSeek MoEに変更するなどの戦略でDeepSeek-VLからの性能向上を図った。

DeepSeek-VL2 architecture

DeepSeek-VL2 performance

Dynamic Tiling Strategy

DeepSeek-Coder V2 Series

2024年6月、コード生成タスクにデザインされたDeepSeek-Coder V2が発表された²⁰。DeepSeek-MoEでも用いられたMoE、DeepSeek-V2のMLAが用いられ、338のプログラミング言語と最大128Kのコンテキストウィンドウに対応している。OpenAI社のGPT4-Turbo、Anthropic社のClaude 3 Opus、Google DeepMind社のGemini 1.5 Proといった最先端のクローズドソースモデルと比較しても同等かそれ以上の性能を示した²¹。

DeepSeek-Coder V2

DeepSeek-R1-Lite Preview

2024年11月DeepSeekは、CoT（Chain-of-Thought）による推論に特化したLLMであるDeepSeek-R1-Lite-Previewをリリースした²²。リリース時にはオープソースではないものの、OpenAI社の同様の推論モデルo1-previewに匹敵または上回るパフォーマンスを示し、衝撃を与えた²³。

DeepSeek-R1-Lite-Preview performance

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up