DeepSeek創設まで
中国の浙江大学に所属中、金融市場関連のデータを蓄積し、機械学習などの技術を用いた定量取引の研究などを行っていたLiang Wenfeng氏が、他の工学部の同級生2名と2016年にHigh-Flyerという有限合弁会社を共同設立した1。High-Flyerは、株式取引用AIモデルを開発し、2019年には香港証券先物委員会で資産運用業のライセンスを取得するなど事業を拡大した2。
また同2019年、トレーディング業務からの収益を使ってAI主導の子会社High-Flyer AI社(杭州High-Flyer AI基礎研究有限公司3)を設立し、ディープラーニング・トレーニング・インフラに2,800万米ドルを投資4、モデルトレーニング用のデータセンタークラスターとなるFire-Flyer Iを2020年に、Fire-Flyer IIを2021年に開発した56(High-Flyer AI発足当初は、Transformerアーキテクチャに焦点を当てていたと思われるが、その後急速にLLMにも重点を置いたらしい7)。
2021年には、Liang Wenfeng氏は(米バイデン政権が米国産AIチップの中国への輸出を制限し始める前に)AI関連のサイドプロジェクトのために数千台のNVIDIA GPUを購入してゲームチェンジャーの開発を目指し8、2022年までに1万枚のGPU A100に、Intelligence Overcalculation Clusterと呼ばれるクラスターを実装している9。
そしてHigh-Flyer Quantは、AIを駆使した運用戦略で中国最大級のクオンツヘッジファンドへと成長し、2021年には運用資金が1000億元に達したとされていたが10、High-Flyer独自のAIモデルが取引のタイミングを誤るようになり、リターンが低下したため2021年12月、損失について公式に謝罪せざるを得ない状況となった11。さらに、中国におけるクオンツファンドへの規制圧力も加わり、迅速な取引判断のためだけにAIを活用することの限界が浮き彫りになったため、AI主導のアプローチの可能性と欠点の両方を認識したLiang Wenfeng氏は、方針転換を決意、2023年3月、High-Flyer AIをスピンアウトし、DeepSeekに社名を変更した1211。
Liang Wenfeng (right), the founder of Chinese AI startup DeepSeek, speaks at a symposium chaired by Chinese Premier Li Qiang on Jan 20, 2025. (Photo: CCTV Plus)
DeepSeek Coder, DeepSeek LLM
2023年11月、DeepSeekはコーディングタスクに特化したDeepSeek Coderをリリースした。主にGitHubをクローリングにより86のプログラミング言語を含む2Tトークンで学習されており、コンテキストウィンドウは16k、様々なベンチマークにおいて、オープンソースコードモデルの中で最先端の性能を達成している1314。
同11月、DeepSeek LLMというモデルサイズ7Bおよび67Bの言語モデルも発表され、いくつかのベンチマークでLLaMA2 70Bを上回ること、中国語の習熟度ではGPT-3.5を上回ることが示された15。
DeepSeek Coder、DeepSeek LLMともにMITライセンスでオープンソースとして公開され、RMSNorm関数を用いたPre-Norm、活性化関数にSwiGLUを利用したLLaMAのアーキテクチャを採用している。アテンション機構にはGroupedQuery Attention (GQA)が用いられ、一般的な中間層の数を増やすというアプローチではなく、深さを増やすという試みによりパフォーマンス向上を目指している1416。
-
DeepSeek: Everything you need to know about the AI chatbot app ↩
-
Meet the hedge fund manager who founded DeepSeek, the Chinese AI startup that began as a hobby and is now laying waste to U.S. stocks ↩
-
DeepSeek’s Parent Company High-Flyer Once Sued for Poaching Trader With ‘Core Commercial Secrets’ in $5M AI Case ↩ ↩2
-
DeepSeek Rattles Tech Stocks: Chinese Startup’s Rise Against OpenAI Challenges U.S. AI Lead ↩
-
DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence ↩ ↩2
-
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism ↩