「進化的モデルマージ」論文

Last updated at 2024-11-19Posted at 2024-11-19

論文

Sakana AIの秋葉拓哉さんのLLMのモデルマージに関する論文

タイトル: Evolutionary Optimization of Model Merging Recipes
著者: Takuya Akiba, Makoto Shing, Yujin Tang, Qi Sun, David Ha
URL: https://arxiv.org/abs/2403.13187

NVIDIA AI Summit Japanで紹介があり、読んでみました。
以下、生成AIを利用しています。

Abstract

この論文では、進化アルゴリズムを用いて強力な基盤モデルを自動的に作成する新しい手法を提案しています。

モデルマージは、その費用対効果の高さからLLM開発において有望なアプローチとして登場しましたが、現状では人間の直感とドメイン知識に依存しており、その可能性が制限されています。

この論文では、この制限を克服するために、進化的なアプローチを提案しています。
具体的には、多様なオープンソースモデルの効果的な組み合わせを自動的に発見し、追加の学習データや計算を必要とせずに、それらの集合的な知性を活用します。

このアプローチは、個々のモデルの重みだけでなく、パラメータ空間とデータフロー空間の両方で動作するため、より広範な最適化が可能になります。
さらに、このアプローチは、日本語LLMと数学的推論能力を持つモデルのような、分野横断的なマージも促進します。

驚くべきことに、日本語の数学LLMは、そのようなタスクの明示的なトレーニングを受けていないにもかかわらず、さまざまな既存の日本語LLMベンチマークで最先端のパフォーマンスを達成し、パラメータ数が大幅に多いモデルさえも凌駕しました。

さらに、このアプローチによって生成された文化的に配慮した日本語VLMは、日本の文化固有のコンテンツを記述する際に効果を発揮し、以前の日本語VLMよりも優れたパフォーマンスを示しました。

この研究は、オープンソースコミュニティに新しい最先端のモデルを提供するだけでなく、自動化されたモデル合成のための新しいパラダイムを導入し、基盤モデル開発のための代替的で効率的なアプローチを探求する道を切り開きます。

要約すると、この論文は以下の点を主張しています。

進化アルゴリズムを用いて、既存のオープンソースモデルを効率的に組み合わせ、強力な新しいモデルを自動的に作成できる。
この手法は、異なる分野のモデルを組み合わせることも可能にする。
作成されたモデルは、既存のベンチマークで最先端の性能を達成し、その汎用性の高さと効率性が示された。
この研究は、モデル開発の自動化に向けた新しいパラダイムを提示し、今後の研究に多くの可能性をもたらす。

キーワード: 進化アルゴリズム、モデルマージ、基盤モデル、LLM、VLM、自動化、オープンソース

1 Introduction

この論文は、進化型アルゴリズムを用いて、強力な基盤モデルを自動的に作成する新しい手法を提案しています。

背景

モデルマージは、複数のLLMを単一のアーキテクチャに統合することで、新しいモデルを開発するための費用対効果の高い手法として注目されています。しかし、現状ではモデル選択やマージ方法が開発者の直感やドメイン知識に依存しており、その可能性が制限されています。

論文の提案

この論文では、上記の問題を克服するために、進化型アプローチを提案しています。進化型アプローチは、追加の学習データや計算資源を必要とせずに、多様なオープンソースモデルの効果的な組み合わせを自動的に発見し、その集合知を活用します。

このアプローチは、個々のモデルの重みだけでなく、データフロー空間も操作することで、最適化の可能性を広げます。さらに、異なるドメインのモデルをマージすることも可能にし、例えば日本語LLMに数学的推論能力を付与するといったことも実現します。

論文の成果

驚くべきことに、日本語と数学を融合したLLMは、明示的にタスクの学習を行っていないにもかかわらず、様々な日本語LLMベンチマークにおいて最先端の性能を達成し、パラメータ数がはるかに多いモデルさえも凌駕しました。さらに、文化的に配慮した日本語VLMは、日本の文化特有のコンテンツを記述する際に、従来の日本語VLMよりも優れた性能を発揮しました。

論文の貢献

この論文は、以下の点で重要な貢献をしています。

自動化されたモデル構成: 進化型モデルマージは、ユーザーが指定した能力を持つ新しい基盤モデルを作成するために、多様なオープンソースモデルの最適な組み合わせを自動的に発見する汎用的な進化型手法です。
クロスドメインマージ: 異なるドメインのモデル (例：英語以外の言語と数学、英語以外の言語と画像認識) を融合させる新しい方法を発見し、従来の人間が設計した戦略では達成できない能力を実現できる可能性を示しました。
最先端の性能: 数学的推論能力を持つ日本語LLMと日本語VLMを自動的に生成し、これらのモデルが様々なベンチマークで最先端の性能を達成することを実証しました。
高い効率性と驚くべき汎化能力: 70億パラメータの日本語LLMよりも70億パラメータのLLMの方がベンチマークデータセットで優れた性能を発揮することを示し、提案手法の高い効率性と驚くべき汎化能力を明らかにしました。
文化的に配慮したVLM: 生成された日本語VLMは、日本語の画像と説明のペアのデータセットでテストした際に最高の結果を達成し、日本の文化特有のコンテンツを処理できることを示しました。

結論

この論文は、進化型手法が、高価なモデル開発の従来のパラダイムに挑戦し、勾配ベースの学習に頼らずに競争力のあるモデルを生成できることを示しています。これは、基盤モデル開発のための代替的で、潜在的により効率的なアプローチを探求する道を切り開くものです。

2 Background and Related Work

2.1 Overview of Model Merging

このセクションでは、モデルマージという手法について解説しています。モデルマージとは、複数の事前学習済みモデルの優れた部分を活用し、新たなモデルを作成する手法です。

従来の転移学習との違い

従来の転移学習では、事前学習済みモデルを特定のタスクに特化させるために、追加学習を行います。転移学習は、モデルの性能向上と学習の高速化に効果的ですが、結果として得られるモデルは、多くの場合、単一のタスクに限定されます。

一方、モデルマージは、複数の事前学習済みモデルから得られた知識を組み合わせることで、汎用性の高い包括的なモデルを作成することを目指します。これにより、様々なタスクを同時に処理できるモデルが期待できます。

モデルマージの簡単な方法

最もシンプルなモデルマージの手法は、同じベースモデルからファインチューニングされた複数のモデルの重みを平均化することです。このモデルスープと呼ばれる手法は、画像処理や画像分類モデルにおいて大きな改善をもたらすことが実証されています。

モデルスープの利点

モデルスープは、重み平均化によって平坦な極小値に導かれるという点で優れています。理論的[11, 25, 26, 37]および1990年代に遡る実証的研究[18, 19]では、より平坦な極小値は、分布外の変化に対してより優れた汎化性能を持つことが示されています。最近の研究[8, 34]では、大規模な生成モデルに適用された重み平均化の理論的特性と実用的な意味が検証されています。

画像生成モデルにおけるモデルマージ

線形重み平均化は、画像処理や分類モデルだけでなく、潜在拡散モデルなどの画像生成モデルにも効果的です。Stable Diffusion [39]のリリースにより、写真のようなリアルさ、アニメ、リアルな絵画スタイルなど、様々なスタイルに特化したモデルのファインチューニングが可能になりました。人気のオープンソースWebUI [4]により、愛好家は、異なるファインチューニング済みStable Diffusionモデルの重みパラメータを線形または球面線形補間（SLERP）[47]を使用してマージするという実験を行うことができるようになりました。これにより、特殊化されたモデルの長所を単一のモデルに組み合わせたマージモデルが発見されました。

コミュニティにおけるモデルマージの流行

しばらくの間、最も人気のあるStable Diffusionモデルは、元のベースモデルでもファインチューニングされたバージョンでもなく、愛好家によって作成されたマージモデルでした。この傾向は、より高度なベースモデルがリリースされるまで続き、その時点でコミュニティはファインチューニングとマージのサイクルを再開します。

まとめ

モデルマージは、複数の事前学習済みモデルの知識を組み合わせることで、汎用性の高い強力なモデルを作成する手法です。特に、画像生成モデルにおいて大きな成功を収めており、コミュニティで広く利用されています。

2.2 Merging Language Models

この章では、言語モデルのマージについて解説されており、特に画像生成モデルで効果的な単純な重み補間が言語モデルにも適用できるものの、課題があることが指摘されています。そして、言語モデル特有のマージ手法と、それらの手法が普及した背景、そして今後の発展可能性について議論されています。

単純な重み補間

画像生成モデルでは、実数値の潜在空間と出力空間で動作するため、単純な重み補間がうまく機能します。驚くべきことに、適切な条件下では、言語モデルのマージにも機能しますが、パフォーマンスの問題が発生する可能性があります [49]。

言語モデル特有のマージ手法

言語モデルのマージにおける課題に対処するために、いくつかの新しい手法が提案されています。

タスク演算 (Task Arithmetic) [21]: 事前学習済みモデルとファインチューニング済みモデルの重みを減算することでタスクベクトルを構築し、算術演算を通じてマージ済みモデルの動作を調整します。
干渉問題への対処 [49]: 重み補間ベースの手法の課題として、パラメータの干渉によるパフォーマンス低下が挙げられます。この研究では、干渉の主な原因として、モデル間で冗長なパラメータ値と競合するパラメータ符号を特定し、これらの問題に対処する手法を提案しています。
TIES-Merging [49]: 情報損失に対処するために、最小限のパラメータ変更のリセット、符号の競合の解決、整合されたパラメータのみのマージという3つのステップを導入しています。
DARE [50]: ファインチューニング済みモデルと元のベースモデル間の小さな差をゼロにし、大きな差を強調することで、さらに干渉問題に対処しています。

言語モデルマージの普及

画像生成モデルのマージは、オープンソースのツールキット [4] が登場したことでコミュニティで広く普及しました。同様に、言語モデルのマージも、mergekit [15, 28] の実装によって人気が高まりました。

このツールキットは、単純な線形補間や球面線形補間だけでなく、タスク演算、TIES-Merging、DARE などの高度なレシピも提供し、Mistral [22] などの一般的なベースモデルのファインチューニングと組み合わせることで、ユーザーは様々なモデルのマージを試すことができます。

Frankenmerging とその課題

Mergekit は、重みマージに基づかない Frankenmerging と呼ばれる手法も導入しました。これは、複数のモデルから異なる層を積み重ねて新しいモデルを作成する手法です。

Frankenmerging は、ユーザーを特定のアーキテクチャのモデルファミリー（例：Mistral ベースのモデル）に縛られることなく、全く異なるモデルをマージして新しいアーキテクチャを作成できるという利点があります。

しかし、新しい Frankenmerging 技術を発見することはコミュニティにとって依然として課題であり、多くの試行錯誤が必要です。現状では、ほとんどの人が似たような Frankenmerging のレシピを使用しており、改善のための試行錯誤はほとんど行われていません。

進化による可能性

この分野は非常に未開拓であり、進化がこの課題を解決するのに役立つ可能性があると著者は考えています。進化アルゴリズムは、新しいモデルの能力を生み出すために、様々なモデルをマージする斬新で直感に反する方法を発見できる可能性を秘めています。

まとめ

2.2章では、言語モデルのマージについて、その手法や課題、そして進化アルゴリズムによる可能性について詳しく解説しています。特に、Frankenmerging のような未開拓な分野において、進化アルゴリズムが自動的に効果的なマージ方法を発見し、新しいモデル開発を加速させる可能性が示唆されています。

2.3 Connection to Evolutionary Neural Architecture Search

この章では、モデルマージと**進化型ニューラルアーキテクチャサーチ(NAS)**との関連性について説明しています。

モデルマージは、複数の事前学習済みモデルの強みを活かす新しいアプローチです。特定のタスクに特化したモデルを組み合わせて、単一の汎用的なモデルを作成します。これは、事前学習済みモデルを新しいタスクにファインチューニングする従来の転移学習とは対照的です。転移学習はパフォーマンス向上と高速な収束という利点がありますが、結果として得られるモデルは通常、単一のタスクに限定されます。一方、モデルマージは、複数の事前学習済みモデルから知識を組み合わせて、多様なタスクを同時に処理できる汎用的なモデルを作成することを目指しています。

進化型アルゴリズムは、自然淘汰に着想を得たもので、より効果的なマージソリューションを見つけるために利用できます。これらのアルゴリズムは、膨大な可能性の空間を探索し、従来の方法や人間の直感では見逃してしまうような斬新で直感に反する組み合わせを発見することができます。

**ニューラルアーキテクチャサーチ(NAS)**は、深層学習において進化型アルゴリズムを用いて新しいアーキテクチャを発見する手法です。NASを用いることで、人間の設計者が見つけるのが難しいアーキテクチャを発見することができます。しかし、NASでは候補となるモデルアーキテクチャごとに学習を行う必要があるため、膨大な計算リソースを消費します。一方、本研究のアプローチは、既存のTransformerブロックの機能を活用することで計算リソースを節約することを目指しています。これらのブロックは、すでに学習に膨大なリソースが費やされているため、再利用することで効率化を図ります。

事前学習済みTransformerブロックは、ニューラルネットワークのコンポーネントと考えることができ、進化型アーキテクチャサーチアルゴリズムを用いて組み合わせることができます。しかし、NASとは異なり、本研究ではモデルを学習する必要がなく、候補をすぐに評価することができます。ある意味で、本研究は、Weight Agnostic Neural Networksのように、特定のタスクに特化した帰納的バイアスを持つニューラルネットワーク構造を進化させ、勾配降下法を用いて重みパラメータを学習する必要がない、初期の形態検索の目標と共鳴しています。

本研究では、進化型アルゴリズムを、単一のアーキテクチャに限定された重み空間におけるモデルマージレシピの最適化だけでなく、異なるモデルの層を積み重ねる最適化にも適用しています。これは、既存のビルディングブロックから全く新しいニューラルアーキテクチャを作成できる可能性を秘めた、より複雑なアプローチです。重み空間のマージ最適化では、マージされるモデルの空間が同じ親ベースモデルのファインチューニングされた子孫に限定されますが、層スタッキング最適化にはそのような制約はありません。本研究では、パラメータ空間と層空間の両方に適用される進化型アルゴリズムの応用を体系的に探求しています。

つまり、この章では、モデルマージを自動化し、より強力なモデルを作成するために進化型アルゴリズムがどのように活用できるか、そしてそれがNASとどのように関連しているかを説明しています。本研究のアプローチは、既存のモデルの層を積み重ねることで新しいアーキテクチャを探索するという点でNASと類似していますが、モデルを学習する必要がないため、計算リソースを節約できるという利点があります。

目標

この章では、複数の基盤モデルから自動的に統合モデルを生成するための統一的なフレームワークの作成を目指しています。この統合モデルは、元のどのモデルよりも優れたパフォーマンスを発揮するように設計されています。

手法

このフレームワークの中核となるのは、進化型アルゴリズムの活用です。進化型アルゴリズムは、モデル統合プロセスにおける複雑な調整を最適化するために用いられます。

具体的には、以下の手順でモデル統合を行います。

統合プロセスを2つの異なる設定空間（パラメータ空間とデータフロー空間）に分解し、それぞれがモデルに与える影響を分析します。
分析に基づいて、これらの空間をシームレスに統合するフレームワークを構築します。

図1は、このアプローチを模式的に示しています。

パラメータ空間とデータフロー空間

パラメータ空間（PS）：
- 複数のモデルの重みを統合し、同じニューラルネットワークアーキテクチャを持つ単一のモデルを作成することを目指します。
- 重みを組み合わせるための様々な戦略がありますが、このフレームワークでは、各モデルが最適化されている、あるいは得意とするタスクに基づいて、各モデルの長所を理解するためにタスクベクトル分析を活用します。
- DARE[50]を用いたTIES-Merging[49]を拡張し、よりきめ細かいレイヤー単位の統合を可能にします。
- 各レイヤーのスパース化と重み付けのための統合設定パラメータを確立し、CMA-ES[17]などの進化型アルゴリズムを用いて、タスク固有の重要な指標（例：MGSMの精度、VQAのROUGEスコア）によって最適化します。
データフロー空間（DFS）：
- 言語モデルにおける知識は分散的に保存されているという最近の分析と発見[14, 35, 36]に基づき、PSとは異なるモデル統合の可能性を探ります。
- PSにおける統合とは異なり、DFSにおけるモデル統合は各レイヤーの元の重みをそのまま保持します。
- 代わりに、トークンがニューラルネットワーク内をどのように通過するかという推論パスを最適化します。
- 例えば、モデルAのi番目のレイヤーの後、トークンはモデルBのj番目のレイヤーに送られるかもしれません。
- 最初の試みとして、直列接続と非適応設定に限定し、より柔軟なモデル統合の調査は今後の課題としています。
- 具体的には、N個のモデルと予算Tを用いて、すべてのトークンがたどるべきパスを定義するレイヤーインデックスのシーケンスLを探索します。
- ここで、Li,jはi番目のモデルのj番目のレイヤーを示し、t∈[1, T]は推論パスにおけるステップを示します。

図1の説明

図1は、進化型モデル統合の概要を示しています。

(1) パラメータ空間（PS）における各レイヤーの混合パラメータの重みを進化させること
(2) データフロー空間（DFS）におけるレイヤーの順列を進化させること
(3) PSとDFSの両方で統合するための両方の方法を組み合わせた統合戦略

が含まれています。

PSにおける統合は、レイヤーパラメータの単純なコピーとスティッチではなく、重みを混合することにも注意してください。この統合は、図に示すように色をブレンドするのと似ています（例：赤と青が紫になる）。

なお、図中の質問は読者のために英語に翻訳されていますが、モデルは日本語のテキストで動作します。

まとめ

進化型アルゴリズムを用いることで、パラメータ空間とデータフロー空間の両方において、既存のモデルから新しい能力を持つ強力な統合モデルを自動的に生成することができます。これは、基盤モデル開発における新しいパラダイムを提示し、従来の手法とは異なる、より効率的なアプローチの可能性を示唆しています。

3.1 Merging in the Parameter Space

この章では、パラメータ空間 (PS) におけるモデルマージについて説明しています。これは、複数の基盤モデルの重みを統合し、同じニューラルネットワークアーキテクチャを持つ単一のモデルを作成する手法ですが、そのパフォーマンスは個々のモデルを上回ることを目指します。

目的:

異なる専門性を持つ複数のモデル (例えば、日本語LLMと数学LLM) の重みを組み合わせることで、単一のモデルでありながら、それぞれのモデルの能力を統合し、さらに強化することを目指します。

手法:

タスクベクトル分析: 各モデルがどのようなタスクに特化しているか、あるいはどのようなタスクに優れているかを理解するために、タスクベクトル分析 [21] を利用します。
DARE-TIES: よりきめ細かいレイヤー単位のマージを行うために、DARE [50] と TIES-Merging [49] を組み合わせた手法を採用します。 (ここでいう「レイヤー」とは、入力/出力の埋め込みレイヤーまたはTransformerブロックを指します。)
マージ設定パラメータ: 各レイヤーにおけるスパース化と重み付けのためのマージ設定パラメータを確立します。これには、入力と出力の埋め込みも含まれます。
進化アルゴリズムによる最適化: CMA-ES [17] などの進化アルゴリズムを用いて、選択されたタスクに対する重要なタスク固有の指標 (例えば、MGSMの精度、VQAのROUGEスコア) に基づいて、これらの設定パラメータを最適化します。

利点:

異なる専門性を持つモデルを組み合わせることで、単一のモデルで複数のタスクを処理できる可能性があります。
個々のモデルよりも高いパフォーマンスを実現できる可能性があります。

具体例:

日本語LLMと数学LLMをマージする場合、日本語の理解と数学的推論の両方に優れたモデルを作成することができます。

この章のポイント:

パラメータ空間におけるモデルマージは、異なるモデルの重みを統合し、単一の強力なモデルを作成する手法です。
進化アルゴリズムを用いることで、マージ設定パラメータを最適化し、タスクのパフォーマンスを向上させることができます。

補足:

この章では、主にパラメータ空間におけるマージについて説明していますが、後続の章では、データフロー空間におけるマージについても説明し、最終的には両者を組み合わせた手法についても議論します。

3.2 Merging in the Data Flow Space

この章では、データフロー空間（DFS）におけるモデルマージについて解説しています。これは、パラメータ空間（PS）におけるマージとは異なり、各層の元の重みをそのまま維持し、トークンがニューラルネットワーク内をどのように通過するか、つまり推論パスを最適化する手法です。

具体例

例えば、モデルAのi番目の層を通過したトークンは、モデルBのj番目の層へと誘導されることがあります。

初期段階における制約

初期段階では、直列接続と非適応的設定に限定しています。つまり、より柔軟なモデルマージについては今後の研究課題としています。

具体的には、N個のモデルと予算Tを用いて、すべてのトークンが特定のタスクに対してたどるべきパスを示す層インデックスのシーケンスLを探索します。ここで、Li,jはi番目のモデルのj番目の層を示し、t∈[1, T]は推論パスにおけるステップを示します。

探索空間の課題

すべてのモデルの層の総数をMとすると、探索空間のサイズは(M + 1)Tとなり、これは非常に広大になります。（パススルー層も含むため+1）

例えば、M = 64（32層のモデル2つなど）、T = 60という控えめな設定でも、天文学的に大きな探索空間となり、強力な進化探索アルゴリズムにとっても課題となります。

探索空間の縮小

予備調査の結果、特定の層の配置、特にモデルの初期段階における反復的または順列化されたシーケンスは、パフォーマンスに悪影響を及ぼす可能性があることが示唆されました。

これを踏まえ、進化探索空間におけるサイズT = M × rのインジケータ配列Iを含めるように設定を変更しました。ここで、rは反復回数です。

概念的には、すべての層を順番に配置し（つまり、i番目のモデルのすべての層の後にi + 1番目のモデルの層が続く）、それをr回繰り返します。そして、インジケータ配列が層の包含/除外を管理します。Zi > 0の場合、インデックスiに対応する層をマージされたモデルのスロットに含め、そうでない場合は除外します。

結果として、探索空間は2Tに縮小され、依然として広大ですが、進化探索アルゴリズムで処理できる範囲になります。

パラメータの維持と課題

探索では、マージされたモデル内のデータ推論パスのみを最適化し、モデル内のパラメータはそのまま維持します。

この設定では、層が入力を受け取る際に、元のモデルで使用されていたものとは異なる分布になる可能性があり、予期しない出力が生成される可能性があります。

例えば、予備調査では、言語モデルで隣接する2つの層を入れ替えると、パフォーマンスが低下することが示されています。

分布の変化をモデル化するには、より理論的な研究が必要ですが、経験的に、層iからjに移動する入力をWijで適切にスケーリングすると、問題が軽減されることがわかっています。

ここで、W∈RM×Mは、インジケータ配列Iとともに進化探索によって最適化される行列です。

大規模な層における課題と代替案

WのサイズはMの2乗で増加するため、多数の層を含むシナリオでは問題となります。

探索空間のサイズを抑えるための代替案として、Wをニューラルネットワークでパラメータ化することが考えられます。

代わりに、層とステップのインデックスを条件としてスケーリング重みを出力するフィードフォワードネットワークを進化させることができます。ここで、θは進化させるパラメータであり、Mが増加してもサイズは変わりません。

まとめ

DFSにおけるモデルマージは、PSにおけるマージとは直交するアプローチですが、これらの手法を組み合わせることで、マージされたモデルのパフォーマンスをさらに向上させることができます。

第4.1節で示すように、まずモデルのコレクションにPSマージを適用し、次にこのマージされたモデルをコレクションに戻してDFSマージを適用することが可能です。

これは、複数の目的を持つモデルマージを検討する場合に非常に役立ちます。

PSマージを最初に適用して、それぞれが複数の目的の1つをターゲットとする複数のマージされたモデルを作成し、次にNSGA-IIなどの多目的遺伝的アルゴリズムを使用してDFSマージを適用することで、関連するメトリックにおける最終モデルのパフォーマンスをさらに向上させることができます。

3.3 Merging in Both Spaces

この章では、**パラメータ空間(PS)とデータフロー空間(DFS)**におけるモデルマージを組み合わせる手法について解説されています。

PSマージは、複数のモデルの重みを統合し、同じアーキテクチャでありながら個々のモデルよりも優れた性能を持つ単一のモデルを作成することを目的としています。

DFSマージは、各層の元の重みを維持したまま、トークンがニューラルネットワーク内をどのように通過するかという推論パスを最適化します。

この章では、PSマージとDFSマージは直交的なアプローチであるものの、これらを組み合わせることでマージされたモデルの性能をさらに向上させることができると述べられています。

具体的には、図1の右端と4.1節で示されているように、まずモデルの集合にPSマージを適用し、次にこのマージされたモデルを集合に戻してDFSマージを適用することが可能です。

これは、複数の目的を持つモデルマージを検討する場合に非常に役立ちます。PSマージを最初に適用して、それぞれが複数の目的の1つをターゲットとする複数のマージされたモデルを作成し、次にNSGA-II[10]などの多目的遺伝的アルゴリズムを使用してDFSマージを適用することで、関連するメトリックにおける最終モデルの性能をさらに向上させることができます。

要約すると、3.3章ではPSマージとDFSマージを組み合わせることで、より強力なモデルを作成できることを示し、その手法と利点について説明しています。

具体例として、日本語の数学LLMと日本語VLMの作成について、それぞれ4.1節と4.2節で詳しく説明されています。

4 Experiments

コミュニティでマージされたモデルのほとんどは、Open LLM Leaderboard [20] で定義されている狭い範囲のタスクに最適化されています。私たちのモチベーションは、進化探索を用いて、人間にとって効果的なマージ方法を見つけるのが難しい、大きく異なるドメイン（例えば、英語以外の言語と数学、または英語以外の言語と画像認識）の異なるモデルをマージする新しい方法を発見することです。さらに、非常に異なるドメインのモデルを効果的にマージすることで、より幅広い実世界の適用性を持つモデルが得られ、リーダーボードで定義された狭い範囲のタスクに最適化された大多数のモデルを超えたモデルを開発できるようになります。

セクション3で説明する私たちの進化型モデルマージ手法を、数学的推論が可能な日本語LLMと、文化的に特異的なコンテンツを処理できる日本語VLMを進化させることで実証します。具体的には、セクション4.1では、日本語LLMと英語の数学LLMをマージして日本語の数学LLMを構築するために進化探索を適用し、セクション4.2では、日本語LLMと英語のVLMをマージして日本語のVLMを作成するために進化探索を適用します。

4.1 Evolving Japanese Math LLM

4.1.1 Setup

日本語で数学の推論が可能なLLMを開発するための実験設定についての説明。日本語LLMと数学LLMをマージすることで実現される。

1. ソースモデル:

shisa-gamma-7b-v1: 日本語の汎用LLM。
WizardMath-7B-V1.1: 英語の数学特化LLM。
Abel-7B-002: 英語の数学特化LLM。

これらのモデルはすべてMistral-7B-v0.1をベースにファインチューニングされています。日本語LLMと英語の数学LLMを組み合わせることで、日本語で数学の問題を理解し、解答を生成できるモデルの開発を目指しています。

2. データセット:

訓練データ: GSM8kデータセットの日本語翻訳版を使用。ただし、MGSMテストセットに含まれる問題は除外されています。これは、テストセットに対する過学習を避けるためです。具体的には、GSM8kのテストセット1319サンプルのうち、MGSMに含まれない1069サンプルを日本語に翻訳して使用しています。
テストデータ: MGSMデータセットの日本語テストセット（250サンプル）を使用。
進化探索用データセット: 過学習を防ぐため、テストセットとは別のデータセットを使用。詳細は明示的に記載されていませんが、GSM8kのテストセットからMGSMテストセットに含まれていない部分を日本語に翻訳したものが使用されていると推測できます。

3. 評価方法:

生成された日本語の解答の最終的な数値が正しいか。
推論過程の説明テキストが日本語で書かれているか。

出力の最後の数値を解答として扱い、fasttextを用いて出力の言語を判定しています。

4. 最適化:

パラメータ空間 (PS) におけるマージ: Optunaに実装されたCMA-ESアルゴリズムを使用。すべてのパラメータの初期値を0.5、sigmaを1/6、母集団サイズを4 + floor(3 * log(nparams))（nparamsは最適化するパラメータ数）に設定。1069個の訓練サンプルに対する精度を評価指標として使用し、1000試行の最適化を実行。
データフロー空間 (DFS) におけるマージ: EvoJAX内でCMA-ESアルゴリズムを使用。M=64、r=3、T=M×r=192として、最後の200サンプルを検証セットとして使用し、残りのデータでバッチサイズ200で最適化。検証セットで最高の精度を達成したスナップショットのパフォーマンスを報告。
PSとDFSの両方におけるマージ: まずPSマージを適用し、次にその結果をコレクションに追加してDFSマージを適用。
モデルAの特殊な設定: モデルAの最初の層と最後の層を必ず使用。これは埋め込み層との互換性を保つため。また、探索時間を短縮するために、モデルAの層を初期の推論パスに含める可能性を高める初期化を行っています。

このセクションでは、日本語数学LLMを作成するための具体的な設定が詳細に説明されています。複数のソースモデル、データセット、評価指標、最適化アルゴリズムを組み合わせて、高性能なモデルの開発を目指しています。

4.1.2 Results

日本語で数学の問題を解く能力を持つLLMを進化的に生成した結果の報告。作成されたモデルと既存のモデルの性能比較が、日本語の数学能力(MGSM-JA)と一般的な日本語能力(JP-LMEH)の2つの観点から行われています。

表1は、LLMの性能比較をまとめたものです。

ソースモデル(1-3): 日本語LLM(1)は数学能力が低く、数学LLM(2-3)は日本語能力が不足しているため、MGSM-JAのスコアは低い。
マージモデル(4-6): パラメータ空間(PS)でマージしたモデル(4)は、異なる専門性を持つモデルを組み合わせることで、52.0という高いスコアを達成。データフロー空間(DFS)でマージしたモデル(5)も精度が向上。両方の戦略を統合したハイブリッドモデル(6)は、更なる性能向上を示している。
既存のモデル(7-11): 作成された7B/10Bパラメータのモデルは、70Bパラメータの既存の日本語LLMよりも高い性能を示し、効率性と汎化能力の高さを示唆している。

図2は、5つのモデルの数学問題に対する正答状況を示したものです。マージされたモデルは、ソースモデルの基礎知識を保持しつつ、ソースモデルでは解けなかった問題も解ける emergent abilities を示しています。これは、日本語LLMと数学モデルを効果的に統合することで、日本語理解と数学的推論の両方に堪能なモデルが生成されたことを示しています。

表2は、JP-LMEHベンチマークスイートを用いた、一般的な日本語能力の評価結果を示しています。作成されたモデルは、70.5と66.2という非常に高いスコアを達成し、ソースモデルだけでなく、以前の最先端の70Bパラメータの日本語LLMをも上回っています。これは、7B/10Bパラメータという少ないパラメータ数で達成された点で注目すべき成果です。

ソースの日本語モデル(Shisa Gamma 7B v1)と比較すると、MGSMスコアだけでなく、JSQUADやJAQKETなどの他のタスクでも改善が見られます。表1のMGSMスコアと表2のMGSMスコアが異なるのは、評価プロトコル(few-shot, promptingなど)の違いによるものです。付録Aには、他のモデルとの広範な比較を含む追加の詳細が記載されています。

さらに、付録Cには、進化によってマージされたモデルの有用性を示す興味深い例が示されています。マージされたモデルは、日本文化と数学の能力の両方を必要とする質問に正しく答えました。対照的に、そのような日本語の質問を英語に翻訳して英語で答えたとしても、英語の数学モデルは質問の日本文化特有の文脈を認識できないため、正しい答えを提供できない可能性が高いです。

要約すると、このセクションでは、進化型モデルマージによって、日本語の数学的推論能力と一般的な日本語能力の両方が向上したLLMが生成されたことが示されています。これは、既存のモデルの専門知識を効果的に統合することで、新しい能力を持つ強力なモデルを作成できることを示す重要な結果です。

4.1.3 Analysis

パラメータ空間とデータフロー空間の両方におけるモデルマージの効果と、進化アルゴリズムによって発見された最適なマージ方法について分析しています。

Figure 3: パラメータ空間におけるマージ設定の進化結果

この図は、パラメータ空間(PS)におけるマージ後の進化したパラメータ設定を示しています。3つのソースモデル（日本語LLM、WizardMath、Abel）それぞれに2つのパラメータ（DensityとWeight）が割り当てられ、CMA-ESによって最適化されています。

Density: モデルの各層において、どの程度ソースモデルのパラメータを使用するかを表す指標。値が大きいほど、その層ではソースモデルの影響が強くなります。
Weight: 各ソースモデルの重み付けの割合を表す指標。

図からわかることは、3つのソースモデルすべてが重要な役割を果たしていること、そして日本語LLMのDensityが特に高く、タスク解決に大きく貢献していることです。これは、日本語LLMがMistralベースモデルから多くのファインチューニングを受けているためと考えられます。また、[50, Section 4.6] で議論されているように、過度にファインチューニングされたモデルにDAREを適用するとパフォーマンスが低下する傾向がありますが、日本語LLMのDensityを高めることで、この問題に対処できていることが示唆されています。

Figure 4: データフロー空間におけるマージ設定の進化結果

この図は、データフロー空間(DFS)におけるモデルAとBのマージ設定の進化の様子を示しています。MGSM-JAタスクにおける推論パスの進化を3つの段階（マージ開始時、中間時、終了時）で可視化しています。

y軸: 層のインデックス l ∈ [1, M] を表します。
x軸: パスのインデックス t ∈ [1, T] を表します。
青色のマーカー: モデルAの層を使用するパスステップを示します。
赤色のマーカー: モデルBの層を使用するパスステップを示します。
マーカーのサイズ: スケーリング係数 Wij の大きさを表します。

進化の過程を見ると、初期段階ではモデルAのほとんどの層が使用され、その後、両方のモデルの層が交互に使用されるようになっています。スケーリングパラメータ Wij はモデルの有効性に重要な役割を果たしており、これを削除するとパフォーマンスが20%以上低下することが確認されています。

パラメータ空間とデータフロー空間のマージの組み合わせ

PSマージで得られた最適なパラメータ設定を持つモデルをソースモデルのプールに追加し、DFSマージを適用することで、さらにパフォーマンスが向上することが確認されています。これは、Figure 3 で示された日本語LLMの重要性を再確認する結果となっています。

これらの分析結果から、進化アルゴリズムを用いたモデルマージは、既存のモデルの専門知識を効果的に統合し、新しいモデルの開発に有効なアプローチであることが示唆されています。

4.2 Evolving Japanese VLM

4.2.1 Multi-modality Extension

手法をマルチモーダルモデルへと拡張し、文化特異的なコンテンツを認識する日本語VLM（ビジョン言語モデル）を開発します。VLMは近年、事前学習済みLLM（大規模言語モデル）の強力な指示追従能力を適用することで目覚ましい進歩を遂げています。VLMのアーキテクチャは、一般的に以下の3つのコンポーネントで構成されます。(1) 画像特徴を抽出するためのビジョンエンコーダ、(2) 画像を説明するためのテキストを生成するLLM、(3) 画像特徴をLLMの埋め込み空間に写像する投影ネットワーク [5, 9, 29, 30, 32]。重要なのは、LLMコンポーネントは、そのテキスト生成能力を活用するために、強力な事前学習済みLLMで初期化されることです。学習中は、投影ネットワークと、場合によってはLLMも、様々な視覚言語データセットで学習されますが、ビジョンエンコーダは固定されます。

4.2.2 Setup

基盤モデル: VLM内部のLLMコンポーネントは、視覚的なソフトプロンプトを理解する追加機能を持つ、スタンドアロンのLLMと見なすことができます。この観点から、ビジョンエンコーダーと投影ネットワークを固定し、LLMコンポーネントのみに焦点を当てることで、セクション3で詳述した方法論を適用し、拡張された機能を持つ新しいLLMを容易に生成できます。この実験では、日本語LLMとVLMのLLMコンポーネントをパラメータ空間でマージします。日本語LLMにはshisa-gamma-7b-v1 [3] を、VLMにはLLaVA-1.6-Mistral-7B [31] を選択します。どちらのモデルもMistral-7B-v0.1 [22] 基盤モデルのファインチューニングです。

データセット: 私たちの知る限り、公開されている日本語VLMデータセットは不足しています。これに対応するため、新しいオープンな日本語VLMベンチマークを作成し、広く認知されている日本語VQAデータセットでVLMを評価しました。新しいベンチマークデータセットは以下で構成されています。

JA-VG-VQA-500: 日本語版Visual Genome VQAデータセット[42]から抽出された500サンプルのテストセット。
JA-VLM-Bench-In-the-Wild: LLaVA-Bench-In-the-Wild [32] の日本語版。日本の文化的な要素や日本でよく見られるオブジェクトを含む42枚の画像と合計50個の質問からなる豊富なコレクションをまとめました。Q&AはGPT-4V [1] の支援を受けて作成され、無意味な結果を除外するための人間参加型フィルタリングプロセスを経ています。JA-VG-VQA-500データセットと比較して、私たちのセットはより複雑な課題を提示し、よりニュアンスのある詳細な応答を必要とします。
⁹進化探索中には、日本語版Visual Genome VQAデータセットの別のサブセットを使用しました。このサブセットは、最適化プロセスにおけるリークを避けるため、JA-VG-VQA-500データセットのサンプルとは重複していません。

評価: 実験では、2つのベースラインを考慮します。1つはソースモデルの1つであるLLaVA-1.6-Mistral-7B [31]、もう1つは日本語データセットでスクラッチからトレーニングされた日本語VLMであるJapanese Stable VLM [43] です。

すべてのモデルは、決定論的デコードによる同じ生成設定を採用しています。日本語以外の応答を空のテキストに置き換える日本語言語検出器を使用してROUGE-Lを計算し、日本語以外の応答の場合はスコアをゼロにします。セクション4.1のLLM実験との整合性を保つため、この言語検出タスクにもfasttext [23, 24] を使用しました。ただし、正解自体に日本語以外ではありますが、日本語のテキストでよく見られる単語（例：「UFO」などの広く認識されている頭字語）が含まれている場合は例外としました。これらの場合、モデルからの日本語以外の応答は空のテキストに変換されません。

最適化: セクション4.1の以前のLLM PSマージ実験と同じ設定を使用し、パラメータ空間でのソースモデルのマージにはDAREを使用したTIES-Mergingを使用します。

4.2.3 Results

表3は、開発したVLMとベースラインモデルの性能比較を示しています。日本語Stable VLMはJA-VG-VQA-500データセットで訓練されているため、このデータセットでの評価は行っていませんのでご注意ください。

開発したVLMは、JA-VG-VQA-500ベンチマークにおいて高い性能を示しており、日本語における熟練度を示しています。これは、元のVLMのLLMコンポーネントとソースの日本語LLMを進化型マージによってうまく統合できたことを示唆しています。さらに、JA-VLM-Bench-In-the-Wildにおいて、両方のベースラインモデルと比較して優れた結果を示しており、文化固有の内容を扱う能力の高さが示されています。

表3の定量的な結果に加えて、付録Cでは、開発したVLMとベースラインモデルを定性的に比較しています。進化させた我々のモデルは、日本の文化固有の内容を非常によく処理することができ、一般的に、より詳細で正確な情報を伴った応答を生成します。

表3：VLMの性能比較。LLaVA 1.6 Mistral 7BはソースVLMであり、日本語Stable VLMはオープンソースの日本語VLMです。JA-VG-VQA-500は日本語における一般的なVQA能力を測定し、JA-VLM-Bench-In-the-Wildは日本の文化的文脈における複雑なVQAタスクの処理能力を評価します。

モデル	JA-VG-VQA-500 (ROUGE-L ↑)	JA-VLM-Bench-In-the-Wild (ROUGE-L ↑)
LLaVA 1.6 Mistral 7B	14.3	41.1
日本語Stable VLM	-	40.5
開発モデル	19.7	51.2

5 Discussion and Future Work

本報告書では、オープンソースモデルの膨大な選択肢から、多様な能力を持つ異なるモデルを組み合わせる最適な方法を、進化的手法を用いて効率的に発見する汎用的な手法を提案します。既存のオープンモデルの集合知を活用することで、本手法はユーザーが指定した望ましい能力を持つ新たな基盤モデルを自動的に生成できます。我々のアプローチは、人間専門家では発見が困難な、全く異なる領域（例えば、英語以外の言語と数学、または英語以外の言語と画像認識）の異なるモデルを、非自明な方法で融合する斬新な方法を自動的に発見できることがわかりました。

このアプローチを検証するために、数学的推論能力を持つ日本語LLMと、文化固有のコンテンツを認識する日本語VLMを自動的に作成する実験を行いました。驚くべきことに、どちらのモデルも、いくつかのLLMおよび画像認識ベンチマークにおいて、それらのベンチマークに明示的に最適化されていないにもかかわらず、最先端の結果を達成し、他の様々な日本語LLMベンチマークでも最高性能を達成し、既存の最先端700億パラメータの日本語LLMの性能さえも凌駕しました。

これらの有望な初期結果から、我々は進化型モデル融合の潜在能力のほんの一部に触れたに過ぎないと考えており、これは進化原理を基盤モデル開発に適用する長期的な発展の始まりです。

現在、我々は進化型モデル融合を画像拡散モデルに適用し、進化によって発見された斬新な方法で既存の構成要素を融合することで、高性能なクロスドメイン画像生成モデルを作成することに成功しつつあります。

現状、この手法ではユーザーが進化探索の材料として使用するソースモデルのセットを選択する必要があります。しかし、膨大な既存モデルの中から候補となるソースモデルを進化的に探索することも可能だと考えています。モデル選択に加えて、それぞれ独自のニッチと挙動を持つ多様な基盤モデルの群れを進化的に生成することも検討しています。これは、相互作用を通じて世界を補完する新たな内部モデルを継続的に生成することで自己改善が可能な、モデルの群れからなる集合知の出現を可能にする可能性を秘めています。

私たちの研究に関連するものとして、本研究とほぼ同時期に公開されたAutomerge[27]と呼ばれる実験があります。この興味深い実験は、Open LLM Leaderboard[20]の上位20モデルから2つのモデルをランダムに選択し、SLERP[47]またはDARE-TIES[49, 50]をランダムに適用して新しいモデルを作成します。時間が経つにつれて、これらのモデルの一部は、このリーダーボードを定義するベンチマークタスクで良好な、あるいはさらに優れた結果を出すようになり、リーダーボードの一部となります。このアプローチは、リーダーボードで定義されたベンチマークタスクに過剰適合した融合モデルの組み合わせにつながると予測されます。著者は、このプロジェクトの背後にあるアイデアは、より優れたモデルを作成することではなく、モデル融合へのより原則的なアプローチを導き出すのに役立つ指標をより多く得ることであると認めています。

私たちの研究は、元のリーダーボード[20]によって指定されたドメインに限定されるのではなく、そのドメイン外のタスクを最適化する直交的なアプローチを採用しています。示したように、驚くべきことに、特定のベンチマークの最適化から一歩離れることで、最適化することを意図していなかった他の多くのベンチマークタスクへの汎化が向上することがあります。このような創発的な汎化は、AIにおける次の大きな進歩の鍵となる可能性があります。

多様な能力を持つ既存の多様なモデルから、新たな創発能力を持つ新しいモデルを進化させる能力は、重要な意味を持ちます。基盤モデルのトレーニングコストとリソース要件が高まる中、豊富なオープンソースエコシステムにおける多様な基盤モデルを活用することで、大規模な機関や政府は、多額の資本を投入したり、国のリソースを活用して完全にカスタムモデルを一から開発したりする前に、概念実証プロトタイプモデルを迅速に開発するための、より安価な進化型アプローチを検討することができます。それも、本当に必要であればの話ですが。

6 Limitations

私たちの進化型モデルの統合は、ソースモデルの多様な専門性を効果的に統合する一方で、それらの限界も継承してしまうことを認識しています。例えば、統合されたモデルが論理的に一貫性のない応答を生成する事例がいくつか見られました。さらに、本研究は命令微調整やアライメントを含んでいないため、モデルが事実関係に誤りのある出力を生成する可能性があります。

7 Author Contributions

秋葉拓哉氏は、「モデル融合レシピの進化最適化」プロジェクトを立ち上げ、プロジェクト設計文書を作成し、パラメータ空間モデル融合実験を開始することで、本手法の基礎を築きました。新井慎氏は、パラメータ空間モデル融合を視覚言語モデルと拡散モデルに拡張しました。唐裕錦氏は、ニューラルアーキテクチャサーチと形態進化の文献から着想を得たアイデアと手法を取り入れることで、データフロー空間モデル融合の取り組みを指揮し、この分野とハイブリッド融合戦略における基礎的な手法を確立しました。孫琦氏は、パラメータ空間モデル融合フレームワークの実装に貢献し、モデル評価を支援しました。David Ha氏は、研究プロジェクト全体を指導し、技術的な洞察、助言、フィードバック、および論文執筆を提供しました。

A Evaluation Details

表1において、GPT-3.5はgpt-3.5-turbo-0613、GPT-4はgpt-4-0125-preview、Llama 2 70BはLlama-2-70b-chat、Japanese Stable LM 70Bはjapanese-stablelm-instruct-beta-70b、Swallow 70BはSwallow-70b-instruct-hfをそれぞれ指します。

日本語LM評価ハーネスを用いた評価では、Stability AI Japanがフォークしたlm-eval-harness3[13]を使用し、彼らの慣例に従って設定を行いました。この設定は広く利用されており、彼らのレポート[4]およびRinnaのリーダーボード[5]の結果と互換性があるため、多数の日本語LLMとのスコアを直接比較することが可能です。

表4は表2の完全版であり、開発モデルとより広範なモデルとの比較を可能にします。数値の一部はStability AI JapanのレポートおよびRinnaのリーダーボードからのものです。

開発モデルは7Bから10Bのパラメータしか持っていませんが、既存の70B未満のパラメータを持つ全てのモデルよりも高いスコアを達成し、最先端の70Bモデルに匹敵するスコアを示しています。

B Evolving for License Specific Open-Source Models

本文では、EvoLLM-JPの結果はHuggingFaceにあるモデルを用いて進化させました。しかし、使用したモデルの一部、特にWizardMath-7B-V1.1 [33]は、真のオープンソースではない、非商用・研究用途限定のMicrosoftライセンスで公開されています。そのため、WizardMath-7B-V1.1モデルとの整合性を保つため、EvoLLM-JPも非商用・研究用途限定ライセンスで公開しています。

私たちはオープンソースコミュニティの恩恵を受けている研究者として、公開するモデルもオープンソースライセンスの下で公開したいと考えています。オープンソースの精神に基づき、モデルライセンスのような困難な課題にも我々の手法が適用可能であることを示すため、MITライセンスやApache 2.0ライセンスといった真のオープンソースライセンスで公開されているモデルのみを組み込んだ同様の実験を行い、EvoLLM-JP-Aという同等性能のモデルを作成し、Apache 2.0ライセンスで公開します。

具体的には、EvoLLM-JP-Aは、いずれもMITライセンスまたはApache 2.0ライセンスで公開されているshisa-gamma-7b-v1、Arithmo2-Mistral-7B、Abel-7B-002を統合したものです。4.1節で説明したプロトコルを用いて測定したMGSM-JAスコアは52.4、日本語言語モデル評価ハーネススコアは69.0です。本文の表2よりも包括的な比較を提供するため、このApache 2.0ライセンスのモデルの結果を表4に追加しました。

C Case Study

表5は、既存のモデルと私たちのモデルによる数学の問題への回答例を示しています。日本語言語モデルを統合することで、日本語の読解力と作文能力が向上するだけでなく、日本に関する知識も拡張されます。この例では、数学的推論と、日本の文化に関する知識、具体的には節分が立春の前日であるという知識の両方が必要です。注目すべきは、統合された私たちのモデルのみが正解を出している点です。問題を英語に翻訳した場合でも、英語の数学モデルであるWizardMath-7B-V1.1は正解を導き出せず、私たちの統合モデルが機械翻訳と英語の数学モデルの組み合わせよりも優れていることを示しています。

表5では、問題を英語に翻訳した上で、汎用数学モデルWizardMath-7B-V1.1による回答も併せて示していることに注意してください。しかし、翻訳された問題を用いても、WizardMath-7B-V1.1は正解を導き出せていません。これは、問題を単に翻訳するだけでは不十分であり、日本の文化的背景の理解も必要であることを明確に示しています。仮に機械翻訳と英語の数学モデルの組み合わせを代替手段として検討したとしても、問題を正しく解くために必要なニュアンスや文脈固有の知識を捉えることはできません。

Table 4: 日本語言語能力のJP-LMEHスコアの詳細

様々な日本語言語モデルの日本語能力を評価するベンチマークであるJP-LMEH（Japanese Language Model Evaluation Harness）の結果を示しています。JP-LMEHは9つのタスクから構成され、各タスクのスコアと平均スコア（Avg列）が示されています。平均スコアは、モデルの全体的な日本語能力の指標として使用されます。

このテーブルで注目すべき点は、提案手法でマージされたモデル（Ours (PS), Ours (DFS), Ours (PS+DFS), Ours (PS-A)）が、パラメータ数が70Bのパラメータを持つ既存のSOTA日本語LLMに匹敵する、あるいはそれ以上のスコアを達成していることです。これは、提案手法が効率的に高性能なモデルを作成できることを示しています。また、オープンソースライセンスのモデルのみでマージしたOurs (PS-A)も高い性能を示しており、ライセンスの制限下でも有効な手法であることが示唆されています。

Table 5: EvoLLM-JP-v1-7Bのケーススタディ

このテーブルは、日本語特有の知識と数学的推論の両方を必要とする問題に対する、各LLMの応答例を示しています。問題は、日本の文化的なイベントである節分の日付に関するものです。

注目すべき点は、提案手法でマージされたモデル（EvoLLM-JP-v1-7B）のみが正解を導き出していることです。これは、日本語の理解と数学的推論能力に加えて、日本の文化的背景の知識も統合されていることを示しています。一方、英語の数学モデル（WizardMath-7B-V1.1）は、問題を英語に翻訳しても正解を導き出せていません。これは、単に問題を翻訳するだけでは不十分であり、文化的文脈の理解も必要であることを示しています。

Table 6: EvoVLM-JPのケーススタディ

日本語特有の知識とVQA能力の両方を必要とする質問に対する、各VLMの応答例を示しています。

Example 1: 日本の文化的な飾りである「鯉のぼり」を認識する問題です。提案手法でマージされたEvoVLM-JPは正しく認識できていますが、元のVLM（LLaVA-1.6-Mistral-7B）は誤認識しています。
Example 2: 鹿の写真を説明する問題です。EvoVLM-JPは、JSVLMよりも詳細で正確な説明を生成しています。
Example 3: 信号機の色を認識する問題です。元のVLMは日本語で幻覚を起こし、間違った色を答えていますが、EvoVLM-JPは正しく認識できています。
Example 4: 建物の説明をする問題です。EvoVLM-JPは、原爆ドームに関する詳細な情報を提供できています。

これらの例は、EvoVLM-JPが日本語の理解とVQA能力に加えて、日本の文化的背景の知識も統合されていることを示しています。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up