Mistral AI 創設
Arthur Mensch氏は2020年からDeepMind社でLLM開発(flamingo/chinchilla)に携わり、Googleの方向性とスピードに疑念を覚え1、生成AIの主要グローバルプレーヤーになるという野心を持って、ヨーロッパのオープンソースプロジェクトを作成するため2、2023年4月、Meta社でLLaMaの開発に携わっていたGuillaume Lample氏、Timothée Lacroix氏(元Meta社)とともにフランスでMistral AIを設立した34。
Mistral AI co-founders: Guillaume Lample, Arthur Mensch, Timothée Lacroix
Mistral AIは、設立からわずか1か月後に、シードラウンドで1億500万ユーロ(1億1,350万ドル)を調達し5、衝撃を与えた。
Mistral 7B
2023年9月、Mistral AI社はMistral 7Bを発表した。Apache 2.0ライセンスが適用されたオープンソースのLLMであり、よりモデルサイズの大きいLlama 2 13BやLlama 1 34Bと比べて優位性が示されている6。
Mistral 7Bは、下記の工夫などにより高精度化を達成している。
- Sliding Window Attention (SWA)7
- 固定サイズのウィンドウを使用して、ウィンドウ長の周辺単語のみアテンションを計算
- 低コストで長いシーケンスを処理できる
- Grouped-query Attention(GQA)8
- Headのサブグループごとに共有し、Multi head Attentionに近い品質を実現しつつ、Multi-query Attentionとほぼ同じ速度で動作する
- 高速推論が可能
Mistrl 7Bは、GitHubでリファレンス実装が公開、Skypilotを使用してクラウドサービスへデプロイする方法のドキュメントが用意されていたりするほか、Hugging Faceでもモデルが公開されていることなどから9、オープンソースAIコミュニティで広く用いられており、例えば下記のモデルに派生している10。
- Zephyr-7B-beta
- HuggingFace
- Yarn Mistral 7B 128K
- NOUS/EleutherAI
- Mistral-Trismegistus-7B
- Teknium
(それぞれの詳細は後日追記する可能性)
Mixtral 8x7B
2023年12月、Sparse Mixture of Experts(SMoE)モデルであるMixtral 8x7BおよびMixtral 8x7B Instructをリリースした。これもApache 2.0で公開されており、英語、フランス語、イタリア語、ドイツ語、スペイン語に対応している11。
Mixture of Experts(MoE)という構造は、1991年にRobert Jacobs氏、Geoffrey Hinton氏によるAdaptive Mixtures of Local Expertsという論文で単一のモデルと比較して、複数のモデルを用いることで全体的な精度と柔軟性が向上する構造として提案されており、Mistral AIがLLMと連携させたことになる12。
Mixtral 8x7Bでは、Expertと呼ばれる8つのブロックを有しており、入力に対して8つのうち2つが選択されて出力を得る。さらにそれらの加重合計を最終的な出力とするようになっている13。
また上記の「ブロック」は、DecoderのみのTransformer構造で、内部でGPUカーネルにフィットするようにAttention機構を分解しているFlash Attentionが利用されている14。
Mixtral 8x7Bは、GPT3.5やLLaMA 2 70Bに比べてサイズだけでなく性能面でも優れており、AIコミュニティに大きな衝撃を与えた。
La Plateforme
2023年12月に、開発およびデプロイメントAPIサービスプラットフォームであるLa Plateformeのベータアクセスを開始した15。このプラットフォームは、APIエンドポイント、Mistralモデルを用いた実験、カスタムデータセットでの微調整、評価、プロトタイプ作成のためのエコシステムを提供する16。
続きはこちら
-
The Story of Arthur Mensch: How to Build a Startup with $2.1B Value in 9 Months ↩
-
Building With Mistral—Europe’s Next Great Generative AI Startup ↩
-
France’s Mistral AI raises a $113M seed round to take on OpenAI ↩
-
A.I. company raises record $113 million just a month after being founded—despite having no product and only just hiring staff ↩
-
Multi-Head Attention と Multi-Query Attention と Grouped-Query Attention ↩
-
本当にオープンソースのライセンスで利用&検証できる大規模言語モデル「Mistral 7B」が登場、「Llama 2 13B」や「Llama 1 34B」を上回る性能のAI開発が可能 ↩
-
Mistral AI's Open Source Initiative | Arthur Mensch, Mistral AI | #aiPULSE 2023 ↩