先日、中国のAlibabaがQwen1.5というモデルのMoEバージョン:Qwen1.5-MoE-A2.7Bをリリースしました。
Qwen1.5-MoEはわずか2.7Bのサイズですが、7B程度モデルの性能を持っています。
このモデルは、MistralのMoEを改良し、エキスパートの数を調整しました。Mistralでは8x7Bで合計8個のエキスパートを使用していましたが、Qwenでは64個のエキスパートを採用しました。推論の際には、従来の2つのエキスパートではなく、4つのエキスパートを呼び出して処理を行います。
簡単に言えば、推論時には約7Bモデルの2倍のメモリを消費しますが、推論速度も1.74倍に向上しています。
(A100-80Gにおいて4000token/sの生成速度を達成しています)
ただし、必要なメモリ量も多くなっており、少なくとも28GBのメモリが必要です。
実際日本語の質問で少し試してみました。(Qwenは中国語と英語のモデルですが、日本語の学習データも十分に学習しているため、日本語の性能も悪くはないです。Qwen-72Bとかは普通の日本語70BLLM並みの精度を持っています)。
回答の質としては一般的な7Bモデルのレベルですね。でも生成スピードは非常に速かったです。ほぼ一瞬でできました。
興味ある方: