先日、日本語のMoEモデル「Swallow-MX」(Mixtral-8x7Bの継続学習モデル)がHuggingFaceで公開されました。
精度は⇩の通りで、70Bモデル並みの性能を持っているようです。
私も試してみました。(Colabでは最大40GBのGPUしか使えないため、量子化されたggufバージョンを使用しました)
まず、いつも通りの最適化ユースケースについて聞いてみました。3つ指定したところ、なぜか8つの回答が返ってきました。
次に、最近Claude3でほぼ完璧にできた最適化コードの生成も試しました。
制約条件までのコードは問題なく動作しましたが、制約条件に間違いがあったため、修正が必要だと感じました。
興味ある方試してみてください:
Swallow-MX-8x7b: