本記事は下記の続きです。
DeepSeek-MoE
2024年1月、DeepSeekはモデルパラメータをスケールアップする際の計算コストを管理するための有望なアーキテクチャとしてMoEに注目し、DeepSeek-MoEというモデルを発表した1。モデルサイズが16.4Bのもので、他のオープンソースモデルを凌駕する性能を記録した2。DeepSeek-MoEでは、下記2つのMoE戦略により、性能向上を試みた13。
- Fine-Grained Expert Segmentation
- Expertを細分化し、通常のMoEより柔軟で適応性の高い組み合わせを可能にする
- Shared Expert Isolation
- 各Expertに必要だった共通知識的なものを担うExpert(Shared Expert)を用意しその他のExpertの専門性を高める
DeepSeek-Math, DeepSeek-Prover (V1)/V1.5
2024年1月、DeepSeekは数学的推論へのアプローチを行うDeepSeek-Mathというモデル(DeepSeek-Math-7B-Base/DeepSeek-Math-7B-Instruct/DeepSeek-Math-7B-RL)を発表した4。DeepSeek-Mathは、DeepSeek-Coder-v1.5 7Bを初期値とし、Common Crawlから取得した数学関連トークン、自然言語データ、コードデータを用いて5000億トークン分の事前学習を追加で行っており5、その他のオープンソースモデルに比べて高い性能を示したと謳われた。
Top1 accuracy of open-source models on the competition-level MATH benchmark
特に、DeepSeek-Math-7B-RLでは、LLMの強化学習ファインチューニングで用いられるProximal Policy Optimization (PPO)と呼ばれる手法6を派生させた、Group Relative Policy Optimization (GRPO)という強化学習アルゴリズムを導入している4。
GRPOは、ある状態である行動をとるメリットの指標であるアドバンテージの計算をValue Model(通常、Policy Modelと同等のモデルとなる)なしで行うこと、現在のポリシーと参照ポリシー (多くの場合、SFT モデル) のKLダイバージェンス(二つの確率分布の差を数値化したもの)を損失関数に直接組み込むことにより、PPOのメモリオーバーヘッドや不安定性といった弱点を低減している。
2024年5月、DeepSeekMath 7BをベースにファインチューニングされたDeepSeek-Proverと言うモデルが発表された7。Microsoft Reseachの研究者が立ち上げた関数型プログラミング言語Lean8を用いた検証などにより、限界まで改善が繰り返される事により、性能向上が図られた。
また8月には、DeepSeek-Proverを拡張したDeepSeek-Prover-V1.5も発表された。前モデルのsingle-pass whole-proof generation approachを上回る多様な証明パスを生成するため、推論時にモンテカルロ木探索の変種であるRMaxTS(RMax applied to Tree Search)を提案し、miniF2F(高校レベルの数学問題集)およびProofNet(大学レベルの数学の定理)において最先端の結果を示した9。
DeepSeek-V2, V2.5, V3
2024年5月、DeepSeekLLMの後継となるDeepSeek-V2が発表された1011。コンテキストウィンドウが128kでDeepSeek-MoEと同様のMoEの構成をとる(全体のモデルサイズは合計236Bであるが、トークンごとにアクティブとなるパラメータは21B)。
また、従来のTransformerで用いられていたMulti-Head Attention (MHA)機構では、生成時に大量のKey-Value(KV) キャッシュがボトルネックとなり推論効率を低下させているため、Mistral AI社によるGrouped-Query Attention(GQA)などが提案されてきたが、DeepSeek-V2ではKVキャッシュを潜在ベクトルに大幅に圧縮することで効率的な推論を可能にするMulti-head Latent Attention機構が採用された。
6月には、DeepSeek-V2-ChatのベースモデルをCoder-V2-baseに置き換えることでアップグレードを行い、コード生成と推論機能を大幅に強化、9月に、DeepSeek-V2をファインチューニングしたDeepSeek-V2-Instruct、DeepSeek-V2-Chatを組み合わせたDeepSeek-V2.5がリリースされた12。
さらに12月、MoEの全体モデルサイズ671B、トークンごとのアクティブパラメータは37Bである、DeepSeek-V3がリリースされた。DeepSeek-V2.5より高性能であり、3倍の応答速度を記録している13。DeepSeek-V2で用いられたアーキテクチャを継承しつつ、従来のMoEモデルの学習時に補助損失を用いないAuxiliary-Loss-Free Load Balancingという戦略が提案され、負荷分散の促進に伴う性能低下を抑制した14。
MoEモデルの学習では、負荷の不均衡によりルーティングの崩壊や計算オーバーヘッドの増加が発生する可能性があった。ルーティングの不均衡を回避するために、一般的に補助損失を用いてExpert負荷のバランスを促進する対策がとられるが、補助損失は学習中の負荷の不均衡を軽減できますが、言語モデリングの目的と矛盾する望ましくない勾配もモデル性能を低下させるという課題も存在した。
そこで、学習中に不要な勾配を生じさせずに負荷バランスを制御するため、補助損失のない負荷分散戦略を特徴とするロスフリー・バランシングが提案された。15
DeepSeek-VL/VL2
2024年3月、画像とテキスト入力を受け付けるマルチモーダルモデルであるDeepSeek-VL(Vision-Language)が発表された16。アーキテクチャは下記の通りである。
- Vision Encoder: Hybrid Vision Encoder
- Vision-Language Adaptor: 2層MLP(Multi-Layer Perceptron)
- Language Model: DeepSeek LLM
- LLaMaを踏襲したDeepSeek製のLLM
SigLIPを含むCLIPファミリー(オリジナルのCLIPはOpenAI社が開発:OpenAI(3. 2021~2022年ごろ:DALL-E, CLIP, GLIDE, InstructGPT))のVision Encoderは、異なる画像が類似画像としてエンコードされてしまう現象(CLIP-blind pairs)が下記のタスクなどで課題となっていた。
- Visual Grounding Task: 自然言語参照に基づいて画像領域を特定
- 高密度OCR(Optical Character Recognition): 文字が密集した画像から文字情報を抽出
そして12月には、DeepSeek-VLにMoEを適用させるなどで、パフォーマンスと効率の両方で大幅な向上を実現したDeepSeek-VL2が発表された19。基本的にはMicrosoft社のLLaVAアーキテクチャを用いつつ、入力画像を分割してすることでさまざまなアスペクト比を持つ画像を処理できるようにするDynamic Tiling Strategy、DeepSeek LLMをDeepSeek MoEに変更するなどの戦略でDeepSeek-VLからの性能向上を図った。
DeepSeek-Coder V2 Series
2024年6月、コード生成タスクにデザインされたDeepSeek-Coder V2が発表された20。DeepSeek-MoEでも用いられたMoE、DeepSeek-V2のMLAが用いられ、338のプログラミング言語と最大128Kのコンテキストウィンドウに対応している。OpenAI社のGPT4-Turbo、Anthropic社のClaude 3 Opus、Google DeepMind社のGemini 1.5 Proといった最先端のクローズドソースモデルと比較しても同等かそれ以上の性能を示した21。
DeepSeek-R1-Lite Preview
2024年11月DeepSeekは、CoT(Chain-of-Thought)による推論に特化したLLMであるDeepSeek-R1-Lite-Previewをリリースした22。リリース時にはオープソースではないものの、OpenAI社の同様の推論モデルo1-previewに匹敵または上回るパフォーマンスを示し、衝撃を与えた23。
-
DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models ↩ ↩2
-
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models ↩ ↩2
-
DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data ↩
-
DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search ↩
-
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model ↩
-
DeepSeek-V2.5: A New Open-Source Model Combining General and Coding Capabilities ↩
-
Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts ↩
-
DeepSeek-VL: Towards Real-World Vision-Language Understanding ↩
-
DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding ↩
-
DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence ↩
-
DeepSeek-R1-Lite-Preview is now live: unleashing supercharged reasoning power! ↩
-
中国のAI企業DeepSeekがOpenAI o1に匹敵する推論AIモデル「DeepSeek-R1-Lite-Preview」公開、オープンソース化する計画も ↩