More than 1 year has passed since last update.

GPT4を使用したVision&Languageモデルの評価手法LLaVA-Benchを試す

Posted at 2024-03-09

はじめに

Vision&Language(V&L)モデルの評価手法であるLLaVA-Bench(COCO)を日本語翻訳したデータが先日Turingから公開されました。

このおかげでGPT4を利用した日本語V&Lモデルの評価ができるようになったので複数のモデルの性能を比較してみました。

LLaVA-Benchとは

LLaVA-BenchとはVisual Instruction Tuningで提案された画像理解と会話能力をGPT4を利用して定量的に図るために提案されたベンチマークです。

このベンチマークを使用することで会話、詳細な説明、複雑な推論の3つの能力をモデルが持っているか測定することができます。

LLaVA-BenchにはMSCOCOの検証データから作成したLLaVA-Bnech(COCO)と屋内外の風景、ミーム、絵画、スケッチなどから作成したLLaVA-Bench(In The Wild)の2種類があります。

LLaVA-Bench(In The Wild)は新しいドメインへの汎用性を評価するために作成されたベンチマークです。そのため、LLaVA-Bench(COCO)と比べると少し難易度が高くなっています。

データセットには画像と質問とGPT4の回答が含まれています。以下はLLaVA-Bench(In The Wild)のデータになります。

項目	内容
タスク	detail
質問	ミームについて詳しく説明してください。
gpt-4-0314の回答	このミームは、シアン色の木製の床に横たわる、疲れたか乗り気でないように見える犬が特徴です。ミームの上部には「月曜日」と書かれ、下部には「ただ...月曜日」とあります。このミームは、犬のポーズと表情によって表される、月曜日にしばしば関連付けられるやる気の欠如とエネルギー不足の感覚をユーモラスに捉えています。

上記の例のGPT4の回答と性能を測定したいモデルの出力をGPT4に入力することでスコアを算出することができます。

Turingが公開したLLaVA-Bench-JAはLLaVA-Bench(COCO)の日本語翻訳です。これに加えてLLaVA-Bench(In The Wild)の日本語翻訳データであるllava-bench-in-the-wild-jaを準備しました。今回はこの2つを使用して日本語V&Lモデルを定量評価していきます。

比較モデルやパラメータ

モデル

今回は以下の3モデルの性能を比較します。

toshi456/llava-jp-1.3b-v1.0-siglip-so400m-patch14-384(llava-jp-siglip)
turing-motors/heron-chat-blip-ja-stablelm-base-7b-v1(heron-v1-llava-150k)
turing-motors/heron-chat-blip-ja-stablelm-base-7b-v1-llava-620k(heron-v1-llava-620k)

モデル名	モデルの構造	パラメータ数	学習データ
llava-jp-siglip	LLaVA	1.86B	LLaVA-Instruct-150K-JA+Japanese Visual Genome VQA dataset
heron-v1-llava-150k	BLIP	8.15B	LLaVA-Instruct-150K-JA
heron-v1-llava-620k	BLIP	8.15B	LLaVA-620K-JA(非公開)

パラメータ

パラメータは全てのモデルで以下を使用しています。

パラメータ名	値
temperature	0.0
no_repeat_ngram_size	2
max_length	1024

またGPT4はgpt-4-0613を使用しています。

結果

結果は以下の通りで、coco-XXXはLLaVA-Bench(COCO)の結果、wild-XXXはLLaVA-Bench(In The Wild)の結果になります。

またconvは会話、detailは詳細な説明、complexは複雑な推論のスコアとなっています。

モデル名	coco-conv	coco-detail	coco-complex	wild-conv	wild-detail	wild-complex
llava-jp-siglip	75.5	73.1	83.1	31.4	49.2	36.3
heron-v1-llava-150k	81.6	78.0	87.0	23.7	40.0	57.6
heron-v1-llava-620k	86.0	80.3	88.4	22.8	42.1	60.4

かっこよくレーダーチャートで表示すると、

結果からheron-v1-llava-620kの性能の高さが分かります。おそらく公開されているオンプレ環境で利用できるV&Lモデルでは一番性能が良いと思われます。

ただ、llava-jp-siglipもwild-convとwild-detailでは、わずかにですがheron-v1よりも高い評価を得ています。また、LLaVA-Bench(COCO)の結果も負けてはいるものの大きな差はないなという印象でした。

性能自体は負けていまが、自身が公開しているllava-jp-siglipもパラメータ数の割には善戦しているということが分かり良かったです。

一つ気になった点はTuringが公開しているスコアと比較すると低めの値がでています。max_lengthを大きめに設定しているのが原因なのかもしれません…。

回答例

LLaVA-Bench(COCO)

conv

指示：画像に写っている2つのスーツケースの色は？

モデル名	回答
llava-jp-siglip	画像の2つのスーツケースは黒と茶色。
heron-v1-llava-150k	画像の2つのスーツケースは黒と茶色。\n
heron-v1-llava-620k	画像のスーツケースは黒と茶色。\n
gpt-4-0314(日本語訳)	画像の2つのスーツケースの色は黒と茶色で、ディテールは黄色。

detail

指示：包括的かつ詳細に画像を分析する。

モデル名	回答
llava-jp-siglip	画像は、2つのスーツケースが隣り合わせに置かれた部屋の風景を描いている。スーツケースはそれぞれ異なる色で、1つは茶色、もう1つは黒。スーツケースの横には、おそらく購入希望者のための値札が置かれている。スーツケースの横には、おそらく購入希望者のための値札が置かれている。スーツケースの横には、おそらく購入希望者のための値札が置かれている。
heron-v1-llava-150k	画像は、2つのヴィンテージのスーツケースが隣り合って置かれている。一方のスーツにはタグが付けられており、おそらく持ち主が識別できるようになっている。もう1つのスーツにもタグがあり、そのうちの1つには "1900年代初頭のものと思われる。このシーンには、スーツとタグのほかに、画像の左上隅にハンドバッグが置かれている。\n
heron-v1-llava-620k	画像は、古いアンティークのスーツケースが2台、隣り合わせに展示されている。スーツにはタグが付けられ、その歴史的価値と価値を示している。1台目のスーツの上には、もう1台のスーツの上に置かれた2台のアンティック・スーツが置かれている。この配置は視覚的に魅力的なディスプレイを作り出し、これらのアンティの職人技と職人技を際立たせている。\n
gpt-4-0314(日本語訳)	画像は、革製の2つのアンティーク・スーツケースを重ねたもの。上のスーツケースは黒、下のスーツケースは茶色と黄色の組み合わせ。2つのスーツケースは画像の大部分を占め、並んで大きく飾られている。これらはヴィンテージのラゲッジのようで、おそらく値札が付いて購入可能で、クラシックなデザインと職人技が見て取れる。

complex

指示：これらのスーツケースを価値あるものにする可能性のある要素とは？

モデル名	回答
llava-jp-siglip	これらのスーツケースは、ヴィンテージやアンティークのデザイン要素を備えているため、価値があるかもしれない。これらのスーツケースは、持ち主が旅行や休暇、あるいはヴィンテージのスーツケースを好む人にとって、ノスタルジックで魅力的なアイテムとなる可能性があります。さらに、これらのスーツケースは、コレクターやコレクターのものである可能性もあり、そのユニークなデザインや歴史的背景は、その価値をさらに高めてくれる。
heron-v1-llava-150k	これらのスーツケースを価値あるものにする要因としては、ヴィンテージのデザイン、アンティークの素材、歴史的価値などが挙げられる。画像では、2つのスーツバッグが並んで置かれ、そのうちの1つにはタグが付いています。これらのヴィンデコ・デザインは、過去の時代の旅行や旅行のスタイルを反映している可能性があり、コレクターや愛好家にとって魅力的かもしれない。さらに、これらのアンティは、旅行者が旅の間に持っていたかもしれない物語や物語を語るきっかけになるかもしれないし、単に過去の時代を思い出させるものとして、ノスタルジアの感覚を呼び起こすかもしれないので、感傷的な価値もあるかもしれないです。\n
heron-v1-llava-620k	画像に写っているスーツケースは、その古さと希少性から価値があるかもしれない。ヴィンテージのスーツバッグは通常、古い素材、ユニークなデザイン、歴史的な重要性で知られています。これらのスーツ・バッグの希少な性質は価値を高め、コレクターやアンティーク品やヴィンティグ品に興味のある人にとって魅力的なものとなる。さらに、タグが付いていることから、このスーツが売り物であったり、所有者の個人的なコレクションの一部であったりする可能性があり、それが価値の魅力をさらに高めている。\n
gpt-4-0314(日本語訳)	この2つのスーツケースが貴重なものである可能性はいくつかある。画像ではアンティークと表現されているが、これは希少価値があるか、歴史的に重要な意味を持つ可能性があることを示唆している。その古さと希少性が価値を高めている可能性がある。加えて、これらのスーツケースは革製である。革は耐久性があり、場合によっては高級品として知られる素材である。スーツケースの色も黒、茶色、黄色などさまざまで、美的魅力やユニークな荷物を持ちたいという願望が買い手を惹きつけるのかもしれない。さらに、スーツケースに値札が付いていることは、それらが販売されていることを示し、市場での価値に注目が集まる。ヴィンテージ・アイテムのコレクターや愛好家は、その素材、デザイン、年代、独特の外観から、これらのスーツケースに価値を見出すかもしれない。

LLaVA-Bench(In The Wild)

conv

指示：この写真の有名な観光地の名前は何ですか？

モデル名	回答
llava-jp-siglip	この写真の有名な観光地は、ハワイ島のオアフ島にあるハワイ火山国立公園である。
heron-v1-llava-150k	写真の有名な観光地はマウンテン・キャニオンである。
heron-v1-llava-620k	写真の有名な観光地の名前は "ハワイ"。\n
gpt-4-0314(日本語訳)	写真の有名な観光地はダイヤモンドヘッドです。

detail

指示：この写真について詳しく説明してください。

モデル名	回答
llava-jp-siglip	この画像は、海に隣接する大きな山の上空からの眺めをとらえたもので、息をのむような景色を提供している。山は青く澄んだ海に囲まれており、絵のような風景を作り出している。このシーンには、海に近い場所にいる人、遠くにいる人など、何人かの人々が散らばっている。遠くに見える人もいれば、近くにいる人もいる。このシーンは、自然と人間の調和を感じさせる、平和で絵のような光景を作り出している。
heron-v1-llava-150k	画像は、海、山、木々、そしておそらく湖など、美しい風景が特徴の美しい山脈を捉えたもの。山脈は丘の上にあり、その下に広がる広大な風景は息をのむようなものに見える。手前には、海岸線近くの海を航行する数隻のボートが見える。遠くには、山脈の右側に位置する小さな島が見えるが、これはおそらく島か海岸線の近くだろう。\n
heron-v1-llava-620k	画像は、海と山に囲まれた絵のように美しいビーチエリアを捉えたもので、遠くに街のスカイラインが見える。ビーチは岩だらけの丘の中腹にあり、海岸線には木々が生い茂り、絵のような風景を作り出している。海岸線の近くには、おそらく観光客か地元の人であろう、数人が歩いている。遠くには街の建物が見え、この景色の美しさをさらに引き立てている。\n
gpt-4-0314(日本語訳)	この写真は、ハワイ諸島にあるダイヤモンドヘッドの航空写真です。火山礫岩円錐はその稜線や斜面が豊かな緑の植生で覆われ、印象的で際立っています。ダイヤモンドヘッドのクレーターは、構造物の急峻な壁に囲まれながらはっきりと見えます。背景には、島を取り囲むさまざまな青色をした広大な海が見えます。これは島を取り巻く清らかな水域を象徴しています。

complex

指示：この景色が形成された理由は何だと考えられるか？

モデル名	回答
llava-jp-siglip	この画像は、海に隣接する山の頂上にある大きなドーム型の構造物、特に巨大な山の頂を空撮したものである。このような構造物は、しばしば「ビッグ・ベン」と呼ばれ、その大きさと威厳から、しばしば畏敬の念を抱かせ、畏敬の念を抱かせる。このような構造物の形成には、いくつかの理由が考えられる。ひとつは、その地域の文化的、歴史的、建築的遺産を象徴するランドマークとして機能している可能性である。もうひとつの可能性は、その地域の観光名所やアトラクションの一部であるということだ。さらに、このような構造物は、その地域の自然の美しさを紹介し、観光客を惹きつけ、その地域の文化的・歴史的遺産を紹介することもできる。
heron-v1-llava-150k	海、山、木々、そして海を見下ろす崖の組み合わせが、この景観を形成した理由として考えられるのは、自然の美しさと、その地域に生息する野生生物への保護である。この風景は、野生動物保護区、国立公園、あるいは保護された景勝地として機能し、訪問者に自然環境を鑑賞し鑑賞する機会を提供している。さらに、このような景色は、観光客や自然愛好家にとって、絵に描いたような景色を提供しやすく、写真撮影やバードウォッチング、ハイキングなどのレクリエーション活動にも魅力的である。\n
heron-v1-llava-620k	画像に写っている景観は、海岸線、山、そしておそらく都市や島を含む大きな丘陵地帯で構成されている。このような景色は、地質学的プロセス、自然現象、あるいは火山活動によって形成された可能性がある。地層は地表の隆起、露頭、岩層、土壌の膨張、水や鉱物の堆積によって引き起こされる。この景色が形成されたのは、火山噴火、地震、洪水、または地中の水と鉱物が地表に放出されたその他の自然的現象によるものかもしれない。さらに、この地域に都市があることから、その地域が開発され、人口が集中していることがわかる。\n
gpt-4-0314(日本語訳)	ダイヤモンドヘッドは、火山の噴火によって形成された火口丘である。地球のマントルからマグマが上昇し、地殻を突き破って噴火が起きます。噴火によって火山灰や岩石が積み重なり、それらが固まってこのような円錐形の構造が形成されます。また、風、雨、波による浸食も地形を形成し、現在の景観の一因となっています。

費用

各ベンチマークを一度実施するのにかかる費用は以下の通りでした。（入力トークン数で価格が変動するため目安になりますが）

ベンチマーク	価格
LLaVA-Bench(COCO)	2〜3$
LLaVA-Bench(In The Wild)	1〜2$

企業等で行う分には安いですが個人で行うには少し高かったです。

おわりに

少しずつですが日本語V&Lも学習データやベンチマーク等の環境が整ってきました。

この機会にみなさんもHeron超えを目指してV&Lを始めてみてください。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up