LoginSignup
4
5

Sakana AIの新手法:既存LLMの組み合わせで高性能LLMを自動構築

Last updated at Posted at 2024-04-06

最近、Transformerの著者の一人が立ち上げた日本のAIスタートアップ「Sakana AI」が、新しいLLMの作成手法”進化的モデルマージ(Evolutionary Model Merge)”を発表しました。SNSで非常に話題になりましたので、共有したいと思います。

1.レイヤーとパラメーターの組み合わせ

この手法は、既存のモデルのレイヤーとパラメーターの組み合わせを最適化することで、高性能なモデルを自動的に構築する手法です。

レイヤー間のマージでは、進化的アルゴリズムを用いて、複数の既存モデルから最適なレイヤーを選び出し、それらを並び替えます。下の図のようなイメージです⇩

image.png

一方、パラメータのマージは、異なるモデル間の最適な重みを探して、それらを組み合わせることを指します。⇩

image.png

そして最後に、これら2つのマージ方法を再度組み合わせ、自動化することで、モデルを自動的に生成することができます。⇩

image.png

2.モデルの精度

⇩はマージ後のモデルの精度です。日本語モデル「Shisa Gamma 7B v1」と英語の数学モデル「WizardMath 7B v1.1」、「Abel 7B 002」を組み合わせたところ、「Llama 2 70B」や「GPT-3.5」といった既存の高性能モデル並みのスコアを達成しました。

image.png

3.マルチモーダル間のマージ

さらに、マルチモーダル間のマージも可能です。英語のマルチモーダルモデル”LLaVA”と日本語LLM”Shisa Gamma 7B v1”をマージすることで、日本語データで学習した”Japanese Stable VLM”よりも高い精度のモデルを生成できました。画像生成モデルにも同様の結果が得られました。(もちろん一切勾配ベースのトレーニングせず、単純にマージしただけです)

image.png

これら3つのモデルは、現在Hugging Faceでそのまま試すこともできます。
興味ある方試してみてください:

4
5
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
5