0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

DeepSeek(2. 2024年ごろ:DeepSeek-MoE、DeepSeek Math、DeepSeek-Coder V2、DeepSeek-V2/2.5/3)

Posted at

本記事は下記の続きです。

DeepSeek-MoE

2024年1月、DeepSeekはモデルパラメータをスケールアップする際の計算コストを管理するための有望なアーキテクチャとしてMoEに注目し、DeepSeek-MoEというモデルを発表した1。モデルサイズが16.4Bのもので、他のオープンソースモデルを凌駕する性能を記録した2。DeepSeek-MoEでは、下記2つのMoE戦略により、性能向上を試みた13

  • Fine-Grained Expert Segmentation
    • Expertを細分化し、通常のMoEより柔軟で適応性の高い組み合わせを可能にする
  • Shared Expert Isolation
    • 各Expertに必要だった共通知識的なものを担うExpert(Shared Expert)を用意しその他のExpertの専門性を高める


DeepSeekMoE performance


Illustration of DeepSeekMoE

DeepSeek-Math, DeepSeek-Prover (V1)/V1.5

2024年1月、DeepSeekは数学的推論へのアプローチを行うDeepSeek-Mathというモデル(DeepSeek-Math-7B-Base/DeepSeek-Math-7B-Instruct/DeepSeek-Math-7B-RL)を発表した4。DeepSeek-Mathは、DeepSeek-Coder-v1.5 7Bを初期値とし、Common Crawlから取得した数学関連トークン、自然言語データ、コードデータを用いて5000億トークン分の事前学習を追加で行っており5、その他のオープンソースモデルに比べて高い性能を示したと謳われた。


Top1 accuracy of open-source models on the competition-level MATH benchmark

特に、DeepSeek-Math-7B-RLでは、LLMの強化学習ファインチューニングで用いられるProximal Policy Optimization (PPO)と呼ばれる手法6を派生させた、Group Relative Policy Optimization (GRPO)という強化学習アルゴリズムを導入している4
GRPOは、ある状態である行動をとるメリットの指標であるアドバンテージの計算をValue Model(通常、Policy Modelと同等のモデルとなる)なしで行うこと、現在のポリシーと参照ポリシー (多くの場合、SFT モデル) のKLダイバージェンス(二つの確率分布の差を数値化したもの)を損失関数に直接組み込むことにより、PPOのメモリオーバーヘッドや不安定性といった弱点を低減している。


PPO vs GRPO

2024年5月、DeepSeekMath 7BをベースにファインチューニングされたDeepSeek-Proverと言うモデルが発表された7。Microsoft Reseachの研究者が立ち上げた関数型プログラミング言語Lean8を用いた検証などにより、限界まで改善が繰り返される事により、性能向上が図られた。


DeepSeek-Prover overview

また8月には、DeepSeek-Proverを拡張したDeepSeek-Prover-V1.5も発表された。前モデルのsingle-pass whole-proof generation approachを上回る多様な証明パスを生成するため、推論時にモンテカルロ木探索の変種であるRMaxTS(RMax applied to Tree Search)を提案し、miniF2F(高校レベルの数学問題集)およびProofNet(大学レベルの数学の定理)において最先端の結果を示した9


DeepSeek-Prover-V1.5 overview


DeepSeek-Prover-V1.5 performance

DeepSeek-V2, V2.5, V3

2024年5月、DeepSeekLLMの後継となるDeepSeek-V2が発表された1011。コンテキストウィンドウが128kでDeepSeek-MoEと同様のMoEの構成をとる(全体のモデルサイズは合計236Bであるが、トークンごとにアクティブとなるパラメータは21B)。
また、従来のTransformerで用いられていたMulti-Head Attention (MHA)機構では、生成時に大量のKey-Value(KV) キャッシュがボトルネックとなり推論効率を低下させているため、Mistral AI社によるGrouped-Query Attention(GQA)などが提案されてきたが、DeepSeek-V2ではKVキャッシュを潜在ベクトルに大幅に圧縮することで効率的な推論を可能にするMulti-head Latent Attention機構が採用された。


DeepSeek-V2 performance


DeepSeek-V2 architecture


MHA vs GQA vs MQA vs MLA

6月には、DeepSeek-V2-ChatのベースモデルをCoder-V2-baseに置き換えることでアップグレードを行い、コード生成と推論機能を大幅に強化、9月に、DeepSeek-V2をファインチューニングしたDeepSeek-V2-Instruct、DeepSeek-V2-Chatを組み合わせたDeepSeek-V2.5がリリースされた12


Update to DeepSeek-V2.5

さらに12月、MoEの全体モデルサイズ671B、トークンごとのアクティブパラメータは37Bである、DeepSeek-V3がリリースされた。DeepSeek-V2.5より高性能であり、3倍の応答速度を記録している13。DeepSeek-V2で用いられたアーキテクチャを継承しつつ、従来のMoEモデルの学習時に補助損失を用いないAuxiliary-Loss-Free Load Balancingという戦略が提案され、負荷分散の促進に伴う性能低下を抑制した14

MoEモデルの学習では、負荷の不均衡によりルーティングの崩壊や計算オーバーヘッドの増加が発生する可能性があった。ルーティングの不均衡を回避するために、一般的に補助損失を用いてExpert負荷のバランスを促進する対策がとられるが、補助損失は学習中の負荷の不均衡を軽減できますが、言語モデリングの目的と矛盾する望ましくない勾配もモデル性能を低下させるという課題も存在した。
そこで、学習中に不要な勾配を生じさせずに負荷バランスを制御するため、補助損失のない負荷分散戦略を特徴とするロスフリー・バランシングが提案された。15


DeepSeek-V3 performance

DeepSeek-VL/VL2

2024年3月、画像とテキスト入力を受け付けるマルチモーダルモデルであるDeepSeek-VL(Vision-Language)が発表された16。アーキテクチャは下記の通りである。

  • Vision Encoder: Hybrid Vision Encoder
    • 高解像度画像(1024 x 1024)エンコーディング用のSAM(Segment Anything Model17)と低解像度画像(384 x 384)エンコーディング用のSigLIP(Sigmoid Loss for Language Image Pre-Training18)を組み合わせ、意味情報と詳細情報の両方を保持
  • Vision-Language Adaptor: 2層MLP(Multi-Layer Perceptron)
  • Language Model: DeepSeek LLM
    • LLaMaを踏襲したDeepSeek製のLLM

SigLIPを含むCLIPファミリー(オリジナルのCLIPはOpenAI社が開発:OpenAI(3. 2021~2022年ごろ:DALL-E, CLIP, GLIDE, InstructGPT))のVision Encoderは、異なる画像が類似画像としてエンコードされてしまう現象(CLIP-blind pairs)が下記のタスクなどで課題となっていた。

  • Visual Grounding Task: 自然言語参照に基づいて画像領域を特定
  • 高密度OCR(Optical Character Recognition): 文字が密集した画像から文字情報を抽出


DeepSeek-VL pipeline

そして12月には、DeepSeek-VLにMoEを適用させるなどで、パフォーマンスと効率の両方で大幅な向上を実現したDeepSeek-VL2が発表された19。基本的にはMicrosoft社のLLaVAアーキテクチャを用いつつ、入力画像を分割してすることでさまざまなアスペクト比を持つ画像を処理できるようにするDynamic Tiling Strategy、DeepSeek LLMをDeepSeek MoEに変更するなどの戦略でDeepSeek-VLからの性能向上を図った。


DeepSeek-VL2 architecture


DeepSeek-VL2 performance


Dynamic Tiling Strategy

DeepSeek-Coder V2 Series

2024年6月、コード生成タスクにデザインされたDeepSeek-Coder V2が発表された20。DeepSeek-MoEでも用いられたMoE、DeepSeek-V2のMLAが用いられ、338のプログラミング言語と最大128Kのコンテキストウィンドウに対応している。OpenAI社のGPT4-Turbo、Anthropic社のClaude 3 Opus、Google DeepMind社のGemini 1.5 Proといった最先端のクローズドソースモデルと比較しても同等かそれ以上の性能を示した21


DeepSeek-Coder V2

DeepSeek-R1-Lite Preview

2024年11月DeepSeekは、CoT(Chain-of-Thought)による推論に特化したLLMであるDeepSeek-R1-Lite-Previewをリリースした22。リリース時にはオープソースではないものの、OpenAI社の同様の推論モデルo1-previewに匹敵または上回るパフォーマンスを示し、衝撃を与えた23


DeepSeek-R1-Lite-Preview performance

  1. DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models 2

  2. Github deepseek-ai/DeepSeek-MoE

  3. DeepSeekMoE: MoE with Segmented and Shared Experts

  4. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models 2

  5. Github deepseek-ai/DeepSeek-Math

  6. Proximal Policy Optimization Algorithms

  7. DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data

  8. Lean

  9. DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search

  10. DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

  11. Github deepseek-ai/DeepSeek-V2

  12. DeepSeek-V2.5: A New Open-Source Model Combining General and Coding Capabilities

  13. Introducing DeepSeek-V3

  14. DeepSeek-V3 Technical Report

  15. Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts

  16. DeepSeek-VL: Towards Real-World Vision-Language Understanding

  17. Segment Anything

  18. Sigmoid Loss for Language Image Pre-Training

  19. DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

  20. DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

  21. Github deepseek-ai/DeepSeek-Coder-V2

  22. DeepSeek-R1-Lite-Preview is now live: unleashing supercharged reasoning power!

  23. 中国のAI企業DeepSeekがOpenAI o1に匹敵する推論AIモデル「DeepSeek-R1-Lite-Preview」公開、オープンソース化する計画も

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?