0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Mistral AI(1. 2023年ごろ:Mistral AI創設、Mistral 7B、Mixtral 8x7B、La Plateforme)

Last updated at Posted at 2025-03-31

Mistral AI 創設

Arthur Mensch氏は2020年からDeepMind社でLLM開発(flamingo/chinchilla)に携わり、Googleの方向性とスピードに疑念を覚え1、生成AIの主要グローバルプレーヤーになるという野心を持って、ヨーロッパのオープンソースプロジェクトを作成するため2、2023年4月、Meta社でLLaMaの開発に携わっていたGuillaume Lample氏、Timothée Lacroix氏(元Meta社)とともにフランスでMistral AIを設立した34


Mistral AI co-founders: Guillaume Lample, Arthur Mensch, Timothée Lacroix

Mistral AIは、設立からわずか1か月後に、シードラウンドで1億500万ユーロ(1億1,350万ドル)を調達し5、衝撃を与えた。

Mistral 7B

2023年9月、Mistral AI社はMistral 7Bを発表した。Apache 2.0ライセンスが適用されたオープンソースのLLMであり、よりモデルサイズの大きいLlama 2 13BやLlama 1 34Bと比べて優位性が示されている6
Mistral 7Bは、下記の工夫などにより高精度化を達成している。

  • Sliding Window Attention (SWA)7
    • 固定サイズのウィンドウを使用して、ウィンドウ長の周辺単語のみアテンションを計算
    • 低コストで長いシーケンスを処理できる
  • Grouped-query Attention(GQA)8
    • Headのサブグループごとに共有し、Multi head Attentionに近い品質を実現しつつ、Multi-query Attentionとほぼ同じ速度で動作する
    • 高速推論が可能


LongformerでのAttentionの工夫


What is grouped query attention (GQA)?

Mistrl 7Bは、GitHubでリファレンス実装が公開、Skypilotを使用してクラウドサービスへデプロイする方法のドキュメントが用意されていたりするほか、Hugging Faceでもモデルが公開されていることなどから9、オープンソースAIコミュニティで広く用いられており、例えば下記のモデルに派生している10

  • Zephyr-7B-beta
    • HuggingFace
  • Yarn Mistral 7B 128K
    • NOUS/EleutherAI
  • Mistral-Trismegistus-7B
    • Teknium

(それぞれの詳細は後日追記する可能性)

Mixtral 8x7B

2023年12月、Sparse Mixture of Experts(SMoE)モデルであるMixtral 8x7BおよびMixtral 8x7B Instructをリリースした。これもApache 2.0で公開されており、英語、フランス語、イタリア語、ドイツ語、スペイン語に対応している11
Mixture of Experts(MoE)という構造は、1991年にRobert Jacobs氏、Geoffrey Hinton氏によるAdaptive Mixtures of Local Expertsという論文で単一のモデルと比較して、複数のモデルを用いることで全体的な精度と柔軟性が向上する構造として提案されており、Mistral AIがLLMと連携させたことになる12

Mixtral 8x7Bでは、Expertと呼ばれる8つのブロックを有しており、入力に対して8つのうち2つが選択されて出力を得る。さらにそれらの加重合計を最終的な出力とするようになっている13
また上記の「ブロック」は、DecoderのみのTransformer構造で、内部でGPUカーネルにフィットするようにAttention機構を分解しているFlash Attentionが利用されている14


Architecture Insights ( Mixtral-8x7B-32K MoE Model )


Flash Attention

Mixtral 8x7Bは、GPT3.5やLLaMA 2 70Bに比べてサイズだけでなく性能面でも優れており、AIコミュニティに大きな衝撃を与えた。


Mistral AI’s Mixtral 8x7B: A Powerhouse Open SMoE Model

La Plateforme

2023年12月に、開発およびデプロイメントAPIサービスプラットフォームであるLa Plateformeのベータアクセスを開始した15。このプラットフォームは、APIエンドポイント、Mistralモデルを用いた実験、カスタムデータセットでの微調整、評価、プロトタイプ作成のためのエコシステムを提供する16


続きはこちら

  1. The Story of Arthur Mensch: How to Build a Startup with $2.1B Value in 9 Months

  2. Building With Mistral—Europe’s Next Great Generative AI Startup

  3. Mistral AI #about

  4. France’s Mistral AI raises a $113M seed round to take on OpenAI

  5. A.I. company raises record $113 million just a month after being founded—despite having no product and only just hiring staff

  6. Mistral 7B

  7. 小型の人気 LLM: Mistral-7B って何で性能いいか知ってる?

  8. Multi-Head Attention と Multi-Query Attention と Grouped-Query Attention

  9. 本当にオープンソースのライセンスで利用&検証できる大規模言語モデル「Mistral 7B」が登場、「Llama 2 13B」や「Llama 1 34B」を上回る性能のAI開発が可能

  10. Mistral AI's Open Source Initiative | Arthur Mensch, Mistral AI | #aiPULSE 2023

  11. Mixtral of experts

  12. The History of Mixture of Experts

  13. Mixtral of Experts

  14. Understanding Mixtral-8x7b

  15. Mixtral of Experts

  16. What is Mistral AI?

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?