More than 1 year has passed since last update.

わずか2.7BのMoEモデル：Qwen1.5-MoEについて

Last updated at 2024-04-03Posted at 2024-04-03

先日、中国のAlibabaがQwen1.5というモデルのMoEバージョン：Qwen1.5-MoE-A2.7Bをリリースしました。
Qwen1.5-MoEはわずか2.7Bのサイズですが、7B程度モデルの性能を持っています。

このモデルは、MistralのMoEを改良し、エキスパートの数を調整しました。Mistralでは8x7Bで合計8個のエキスパートを使用していましたが、Qwenでは64個のエキスパートを採用しました。推論の際には、従来の2つのエキスパートではなく、4つのエキスパートを呼び出して処理を行います。

簡単に言えば、推論時には約7Bモデルの2倍のメモリを消費しますが、推論速度も1.74倍に向上しています。
（A100-80Gにおいて4000token/sの生成速度を達成しています）

ただし、必要なメモリ量も多くなっており、少なくとも28GBのメモリが必要です。

実際日本語の質問で少し試してみました。（Qwenは中国語と英語のモデルですが、日本語の学習データも十分に学習しているため、日本語の性能も悪くはないです。Qwen-72Bとかは普通の日本語70BLLM並みの精度を持っています）。

回答の質としては一般的な7Bモデルのレベルですね。でも生成スピードは非常に速かったです。ほぼ一瞬でできました。

興味ある方：