1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

DeepSeek(1. 2016~2023年ごろ:DeepSeek創設、DeepSeek Coder/LLM)

Posted at

DeepSeek創設まで

中国の浙江大学に所属中、金融市場関連のデータを蓄積し、機械学習などの技術を用いた定量取引の研究などを行っていたLiang Wenfeng氏が、他の工学部の同級生2名と2016年にHigh-Flyerという有限合弁会社を共同設立した1。High-Flyerは、株式取引用AIモデルを開発し、2019年には香港証券先物委員会で資産運用業のライセンスを取得するなど事業を拡大した2
また同2019年、トレーディング業務からの収益を使ってAI主導の子会社High-Flyer AI社(杭州High-Flyer AI基礎研究有限公司3)を設立し、ディープラーニング・トレーニング・インフラに2,800万米ドルを投資4、モデルトレーニング用のデータセンタークラスターとなるFire-Flyer Iを2020年に、Fire-Flyer IIを2021年に開発した56(High-Flyer AI発足当初は、Transformerアーキテクチャに焦点を当てていたと思われるが、その後急速にLLMにも重点を置いたらしい7)。
2021年には、Liang Wenfeng氏は(米バイデン政権が米国産AIチップの中国への輸出を制限し始める前に)AI関連のサイドプロジェクトのために数千台のNVIDIA GPUを購入してゲームチェンジャーの開発を目指し8、2022年までに1万枚のGPU A100に、Intelligence Overcalculation Clusterと呼ばれるクラスターを実装している9
そしてHigh-Flyer Quantは、AIを駆使した運用戦略で中国最大級のクオンツヘッジファンドへと成長し、2021年には運用資金が1000億元に達したとされていたが10、High-Flyer独自のAIモデルが取引のタイミングを誤るようになり、リターンが低下したため2021年12月、損失について公式に謝罪せざるを得ない状況となった11。さらに、中国におけるクオンツファンドへの規制圧力も加わり、迅速な取引判断のためだけにAIを活用することの限界が浮き彫りになったため、AI主導のアプローチの可能性と欠点の両方を認識したLiang Wenfeng氏は、方針転換を決意、2023年3月、High-Flyer AIをスピンアウトし、DeepSeekに社名を変更した1211


Liang Wenfeng (right), the founder of Chinese AI startup DeepSeek, speaks at a symposium chaired by Chinese Premier Li Qiang on Jan 20, 2025. (Photo: CCTV Plus)

DeepSeek Coder, DeepSeek LLM

2023年11月、DeepSeekはコーディングタスクに特化したDeepSeek Coderをリリースした。主にGitHubをクローリングにより86のプログラミング言語を含む2Tトークンで学習されており、コンテキストウィンドウは16k、様々なベンチマークにおいて、オープンソースコードモデルの中で最先端の性能を達成している1314


DeepSeek Coder performance

同11月、DeepSeek LLMというモデルサイズ7Bおよび67Bの言語モデルも発表され、いくつかのベンチマークでLLaMA2 70Bを上回ること、中国語の習熟度ではGPT-3.5を上回ることが示された15

DeepSeek Coder、DeepSeek LLMともにMITライセンスでオープンソースとして公開され、RMSNorm関数を用いたPre-Norm、活性化関数にSwiGLUを利用したLLaMAのアーキテクチャを採用している。アテンション機構にはGroupedQuery Attention (GQA)が用いられ、一般的な中間層の数を増やすというアプローチではなく、深さを増やすという試みによりパフォーマンス向上を目指している1416

  1. High-Flyer Wikipedia

  2. DeepSeekの衝撃! 低価格で高性能AIを実現できた理由

  3. High Flyer | History

  4. DeepSeek:誇張の分類

  5. High Flyer

  6. DeepSeek: Everything you need to know about the AI chatbot app

  7. Artificial Intelligence – DeepSeek, The Honeymoon Spoiler

  8. Meet the hedge fund manager who founded DeepSeek, the Chinese AI startup that began as a hobby and is now laying waste to U.S. stocks

  9. WeChat post @所有人|万卡算力,免费申请,酣畅科研的夏天 at 2022年7月15日

  10. DeepSeek 創業者 梁文峰 : 異色のAI先駆者が語る挑戦

  11. DeepSeek’s Parent Company High-Flyer Once Sued for Poaching Trader With ‘Core Commercial Secrets’ in $5M AI Case 2

  12. DeepSeek Rattles Tech Stocks: Chinese Startup’s Rise Against OpenAI Challenges U.S. AI Lead

  13. X post by DeepSeek at 5:02 AM · Feb 3, 2025

  14. DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence 2

  15. Github deepseek-ai/DeepSeek-LLM

  16. DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?