More than 1 year has passed since last update.

日本語のMoEモデル：Swallow-MX-8x7bが公開されました

Posted at 2024-03-17

先日、日本語のMoEモデル「Swallow-MX」（Mixtral-8x7Bの継続学習モデル）がHuggingFaceで公開されました。
精度は⇩の通りで、70Bモデル並みの性能を持っているようです。

私も試してみました。（Colabでは最大40GBのGPUしか使えないため、量子化されたggufバージョンを使用しました）

まず、いつも通りの最適化ユースケースについて聞いてみました。3つ指定したところ、なぜか8つの回答が返ってきました。

次に、最近Claude3でほぼ完璧にできた最適化コードの生成も試しました。

制約条件までのコードは問題なく動作しましたが、制約条件に間違いがあったため、修正が必要だと感じました。

興味ある方試してみてください：

Swallow-MX-8x7b: