マルチモーダルLLMのベンチマーク論文

Last updated at 2024-09-24Posted at 2024-09-22

論文

タイトル：Perception Test: A Diagnostic Benchmark for Multimodal Video Models
原文：arXiv:2305.13786v2
著者：DeepMindのグループ

この論文を読んだきっかけ

業務の実プロジェクトで、マルチモーダルのLLMを利用する機会があり、評価方法や性能限界を把握するための調査。

免責事項

この投稿は、個人的なメモです。内容理解や翻訳には、生成AIを利用しています。また、実験結果の図表は載せていません。より詳細な内容や正確な内容を知りたい方は、論文の原文を参照してください。

サマリー

この論文は、マルチモーダルビデオモデル (映像、音声、テキストなど複数のモダリティを扱うモデル) の知覚能力と推論能力を評価するための新しいベンチマーク Perception Test を提案しています。

既存のベンチマークとの違い:

従来のベンチマーク (ImageNet, Kinetics, VQAなど) は、画像分類、物体検出、行動認識といった特定の計算タスクに焦点を当てていました。Perception Test は、記憶、抽象化、物理、意味といったスキルと、記述的、説明的、予測的、反事実的といった推論の種類に焦点を当て、より包括的な評価を目指しています。
多くの既存ベンチマークは、大規模な訓練データセットを提供し、モデルのデータセット内での能力を評価します。Perception Test は、汎化能力に焦点を当て、ゼロショット/フューショットまたは限定的なファインチューニングの設定でモデルを評価します。

Perception Test の特徴:

現実世界のビデオ: 世界中の約100人の参加者によって撮影された、知覚的に興味深い状況を示す11.6k本の現実世界のビデオ (平均23秒) で構成されています。
密なアノテーション: オブジェクトトラッキング、ポイントトラッキング、時間的行動セグメント、時間的音声セグメント、多肢選択式ビデオQA、根拠に基づくビデオQAなど、6種類のラベルで密にアノテーションされています。これにより、言語ベースと非言語ベースの両方の評価が可能になります。
汎化に焦点を当てた評価: 小さな訓練セット (データの約20%) をファインチューニングまたはプロンプトに使用できますが、残りのデータは評価に使用されます。
オープンソース: 訓練と検証の分割データセット、ベースラインコード、評価サーバーが公開されています。

論文の貢献:

マルチモーダルビデオモデルの知覚能力と推論能力を包括的に評価するための新しいベンチマーク Perception Test を提案。
さまざまなスキル、推論の種類、モダリティをカバーする、現実世界のビデオと密なアノテーションを提供。
汎化能力に焦点を当てた評価体制を提案。
既存の最先端モデルと人間のベースライン結果を比較し、マルチモーダルビデオ理解における改善の余地が大きいことを示唆。

今後の展望:

モデルの限界を理解し、改善すべき領域を特定するための、より詳細な分析 (解釈可能性分析など) を実施。
より汎用的な知覚モデルの開発を促進。

結論:

Perception Test は、マルチモーダルビデオモデルの知覚能力と推論能力を評価するための貴重なベンチマークです。このベンチマークを利用することで、モデルの限界を理解し、より汎用的な知覚モデルの開発を促進することが期待されます。

Abstract

この論文では、マルチモーダルビデオモデル (例：Flamingo, SeViLA, GPT-4) の知覚能力と推論能力を評価するための新しいベンチマークである Perception Test を提案しています。

既存のベンチマークとの違い:

計算タスク (例：分類、検出、追跡) に焦点を当てた既存のベンチマークとは異なり、Perception Test は、映像、音声、テキストの各モダリティにわたるスキル (記憶、抽象化、物理、意味) と推論の種類 (記述的、説明的、予測的、反事実的) に焦点を当てています。
これにより、包括的で効率的な評価ツールを提供します。

Perception Test の特徴:

転移能力の評価: 事前学習済みモデルの転移能力を、ゼロショット/フューショットまたは限定的なファインチューニング設定で評価します。
現実世界のビデオ: 知覚的に興味深い状況を示すように設計された、約100人の参加者によって世界中で撮影された11.6k本の現実世界のビデオ (平均23秒) を導入しています。
密なアノテーション: 6種類のラベル (多肢選択式および根拠に基づくビデオQA、オブジェクトおよびポイントの軌跡、時間的行動および音声セグメント) で密にアノテーションされており、言語ベースと非言語ベースの両方の評価を可能にします。
公開データ: ベンチマークのファインチューニングと検証の分割は、(CC-BYライセンスで) 公開されています。また、非公開のテスト分割を含むチャレンジサーバーも提供されています。

結果:

最新のビデオQAモデルと比較した人間のベースライン結果は、パフォーマンスに大きな差があることを示しています (91.4% 対 46.2%)。
これは、マルチモーダルビデオ理解において、まだ大きな改善の余地があることを示唆しています。

データセットへのアクセス:

データセット、ベースラインコード、チャレンジサーバーは、以下のURLから入手できます。
https://github.com/deepmind/perception_test

要約:

Perception Test は、マルチモーダルビデオモデルの知覚能力と推論能力を評価するための、包括的で、現実世界に基づいた、チャレンジングな新しいベンチマークです。このベンチマークは、モデルの転移能力を評価し、マルチモーダルビデオ理解における将来の研究の方向性を示すのに役立ちます。

1 Introduction

マルチモーダルモデルの進歩と課題
近年、マルチモーダルデータ (映像、音声、テキストなど、複数のモダリティを含むデータ) での大規模な学習により、マルチモーダルモデルは目覚ましい進歩を遂げています。Flamingo, SeViLA, BEiT-3, GPT-4 などのモデルは、多様なデータソースを処理し、わずかな例を見るだけで新しいタスクをこなす高い汎用性を示しています。これは、従来のコンピュータビジョンにおける特化型モデル (画像分類、物体検出、物体追跡など) からの大きな転換であり、汎用的な知覚と推論モデルへの道を切り開いています。

しかし、これらのモデルの能力を堅牢かつ効率的に評価することは、その能力をさらに拡張し、モデル設計や学習方法の改善、そして課題の特定に不可欠です。

既存ベンチマークの限界
多くの知覚関連ベンチマーク (ImageNet, Kinetics, Audioset, TAO, VQA など) が存在しますが、これらは知覚の限定的な側面に焦点を当て、特定の計算タスクを対象としています。例えば、画像ベンチマークは時間的次元を無視し、VQA は高レベルの意味理解に偏っている傾向があり、物体追跡は低レベルのテクスチャベースの手がかりに焦点を当てています。

いくつかのベンチマークは、複数のデータセットを組み合わせることで、より汎用的なモデルを評価しようとしています (Flamingo, SeViLA, BEiT-3, GPT-4 など)。しかし、このアプローチは評価コストが高く、物理的理解や記憶といった重要な汎用的な知覚能力を評価できていません。さらに、音声と映像の両方のモダリティを扱うベンチマークは限られており、複数のモダリティとタスクの複雑な組み合わせを扱うものはさらに少ないです。また、多くの既存の研究では、大規模な訓練データセットを提供し、モデルのデータセット内での能力を評価することに重点が置かれています。

Perception Test の提案
本論文では、Perception Test と呼ばれる新しいベンチマークを提案しています。これは、意図的に設計、撮影、アノテーションされた現実世界のビデオで構成されており、マルチモーダル知覚モデルの能力を、さまざまなスキル領域 (記憶、抽象化、物理、意味)、推論の種類 (記述的、説明的、予測的、反事実的)、そしてモダリティ (映像、音声、テキスト) にわたって包括的に評価することを目的としています。

このベンチマークは、CATER や CLEVRER などの診断用合成データセット、Visual Turing Test などの行動テスト、発達心理学の実験、そして子供や大人向けの運動不要な知覚スクリーニングテストから着想を得ています。

汎化能力重視の評価
ベンチマークの過学習を避けるため、汎化能力重視の評価体制を提案しています。外部データセットやタスクで事前学習された、あらゆる規模の表現やモデルを評価することを目指しています。 Perception Test 自体は、タスクデコーダーのファインチューニングまたはモデルのプロンプトに使用できる小さな訓練セットを含んでおり、残りのデータは評価 (公開検証セットと非公開テストセット) に使用されます。この体制により、モデルの転移能力をより確実に評価し、ベンチマークの改善が現実世界での動作の汎化に繋がりやすくなります。

データセットの概要
データセットには、11.6k 本の現実世界のビデオ (平均23秒) が含まれており、190k のオブジェクトと 8.6k のポイントの軌跡、73.5k の時間的行動セグメント、137k の時間的音声セグメント、38k の多肢選択式ビデオQAペア、そして 6k の根拠に基づくビデオQAペアで密にアノテーションされています。これにより、言語ベースと非言語ベースの両方の評価が可能になり、分析と説明可能性の向上にも役立ちます。

公開データと評価サーバー
訓練セットおよび検証セットのビデオとアノテーションはオープンソース化されています。また、非公開テストセットのビデオと評価サーバーも提供されています。

まとめ
本論文では、マルチモーダル知覚モデルの能力を包括的に評価するための新しいベンチマーク Perception Test を提案しています。このベンチマークは、現実世界のビデオと密なアノテーション、そして汎化能力重視の評価体制を提供することで、モデルの転移能力をより確実に評価し、マルチモーダルビデオ理解における将来の研究の方向性を示すのに役立ちます。

2 Related work

このセクションでは、Perception Test と関連する既存の研究について、データ収集プロセス、対象とするモダリティ、アノテーションとタスクの種類といった観点から比較・議論し、Perception Test の独自性を明らかにしています。

既存の知覚関連ベンチマーク
多くの知覚関連ベンチマークが提案されていますが、大きく分けて以下の3つのデータソースに依存しています。

Web やリポジトリから収集したビデオ: Kinetics, ActivityNet, VGGSound, HVU, ActivityNet-QA, tGIFQA など。
ボランティアが撮影した、屋内または屋外での任意の活動を含むビデオ: EPIC-KITCHENS, Ego4D など。
クラウドソーシング参加者が、事前に定義されたスクリプトに従って行動する様子を撮影したビデオ (主に屋内): Charades, Something-Something v2 (SSv2) など。

これらのベンチマークは、行動分類、物体検出、ビデオキャプションなどの計算タスクを可能にするため、クラウドソーシングによるアノテーションを利用しています。

公開ビデオのアノテーションの限界
公開ビデオのアノテーションは、モデルの学習には有用ですが、汎用的な知覚能力の評価にはいくつかの欠点があります。

データ量の不足: 記憶、抽象化、物理、意味といったスキルを必要とする、知覚的に興味深い状況を十分な量集めるには、膨大な量のデータを収集し、注意深くフィルタリングおよびアノテーションする必要があります。
特定の状況の不足: 靴紐を結ぶといった単純なタスクを間違って実行する様子など、特定の種類のデータは簡単には見つかりません。

Perception Test のデータ収集方法
Perception Test では、多様なスキルを評価するために、知覚的に興味深い状況を示すビデオスクリプトを設計し、クラウドソーシング参加者にそれらのスクリプトに従ってビデオを撮影してもらいました。これは、Charades のようにクラウドソーシングワーカーがスクリプトを設計するのではなく、Something-something (v2) のように研究チームがスクリプトを設計するアプローチに似ています。ただし、SSv2 のように単純な行動を網羅的に網羅することを目指すのではなく、より高度な推論スキルを評価するために、より複雑なスクリプトを設計しました。

診断用ベンチマークの必要性
CATER, CLEVRER, IntPhys, Physion などの研究では、堅牢な診断用ベンチマークの必要性が強調されています。これらの研究では、直感的な物理学 (物体の衝突、運動、物体恒存性) に関するモデルの推論能力を、さまざまな難易度で体系的に評価するために、合成データセットを開発しました。Perception Test は、これらの研究と同じ動機を共有し、現実世界のビデオを使用して、記憶、抽象化、直感的な物理学、意味理解に関連する側面を網羅することを目指しています。

Perception Test のデータセットの特徴
Perception Test のビデオは、一般的な家庭用品を使用して現実世界のシーンで撮影されているため、オブジェクト、行動、音の分布は、標準的なコンピュータビジョンデータセット (例：VQAv2) と大きな重複があります。そのため、Perception Test と既存の大規模訓練データセットとの間のドメインギャップは最小限であると考えられます。

表1: Perception Test と他のデータセットの比較
表1では、Perception Test と他のデータセットを、データ収集プロセス、対象スキル、ビデオ数、アノテーション密度、ビデオの長さといった観点から比較しています。Perception Test は、スキル領域の網羅性とアノテーション密度において優れています。ビデオの長さは Charades と同程度ですが、Ego4D や SSv2 よりも短いです。これは、Perception Test が大規模な訓練データセットとして設計されたものではなく、モデルの転移能力を評価するための評価ベンチマークであるためです。

まとめ
Perception Test は、既存のマルチモーダルベンチマークとは異なり、汎用的な知覚能力を評価することに重点を置いています。現実世界のビデオ、密なアノテーション、そして汎化能力重視の評価体制を通じて、モデルの真の能力を明らかにし、マルチモーダルビデオ理解の進歩に貢献することを目指しています。

3 Videos in the Perception Test

このセクションでは、Perception Test で使用されるビデオについて、その設計と撮影方法、そして参加者の多様性について詳しく説明しています。

3.1 Videos in the Perception Test

3.1.1 Scripts design (スクリプト設計)

発達心理学・医学における知覚スクリーニングテストを参考に、モデルの知覚能力を診断するためのビデオスクリプトとタスクを設計しました。
網羅的な行動・シーン網羅ではなく、4つの領域 (記憶、抽象化、物理、意味) に焦点を当て、それぞれの領域で多様なスキル (表2の最初の列を参照) をテストすることを目指しました。
これらのスキルは、既存ベンチマークの盲点、現在のモデルの弱点、現実世界のシーン理解に重要な側面を考慮して選択されました。
スクリプトは、一般的な家庭用品を使って誰でも簡単に実行できる、シンプルな状況またはゲームを記述しています。
スクリプトには、シーンの説明、実行する行動の説明、カメラの配置 (固定カメラ1視点、固定カメラ2視点、固定カメラと移動カメラ) が含まれています。
コンテンツの多様性を高めるため、各スクリプトには、使用するオブジェクトの数、行動の種類、行動の順序などにばらつきがあります。

高レベル概念と低レベルタスクの組み合わせ

オブジェクト追跡のような低レベルタスクを通じて記憶のような高レベル概念をテストしたり、その逆もできるようにしました。
各スクリプトには、状況をより興味深く、挑戦的にする要素が含まれています。
- Distractor actions (妨害行動): お茶を作る、サラダを作るといったスクリプトでは、お茶作りとは無関係で結果に影響を与えない行動 (手を叩く、やかんをスプーンで叩くなど) を追加しました。これは、行動間の因果関係の理解を評価するためです。
- Distractor objects (妨害物体): お茶を作るシーンにトマトを置くなど、現在のスクリプトには関係ないが、他のスクリプトには関連するオブジェクトを配置しました。これは、言語バイアスがない場合のオブジェクトの空間関係の理解を評価するためです。
- Adversarial actions (敵対的行動): お茶を作る際に、すべての手順は正常に行うが、1つだけ間違って実行する (例：空のやかんから水を注ぐ) といったバリエーションを含めました。これは、SSv2データセットで使用されている敵対的行動分類よりも複雑な設定で、タスク完了の理解を評価するためです。

表2と図1: スクリプトとタスクの例

表2と図1は、Perception Test のスクリプトとタスクの例を示しています。1つのスクリプトから、複数のスキル領域にわたるタスクや質問を定義できることに注意してください。全部で37個のスクリプトを設計し、それぞれに2〜5個のバリエーションを用意することで、多様なデータセットを作成しました。同じ質問と選択肢を使用し、スクリプトのバリエーションによって正解が変わるようにすることで、質問の言語バイアスによる正解の推測を防いでいます。

3.1.2 Video filming (ビデオ撮影)

参加者とシーンの多様性を確保することは、ベンチマーク開発において非常に重要でした。
クラウドソーシングを利用し、さまざまな国、民族、性別の約100人の参加者を選びました。
各スクリプトのバリエーションは、少なくとも12人の異なる参加者によって撮影されました。
ほとんどの場合、携帯電話のカメラを使用して撮影され、高解像度の音声・映像データが得られました。
2つの視点から撮影するスクリプトでは、スクリプトを繰り返して順番に撮影するか、2台の撮影機器を使用して同時に撮影しました。
約15%のビデオは移動カメラで撮影されました。
ほとんどのビデオは屋内のリビングルームまたはキッチンで撮影され、一部はバスルームや屋外で撮影されました。
ほとんどの活動は卓上で実行されますが、床や椅子の上で行われるものもあります。
プライバシー保護のため、参加者には顔や声を記録しないように指示しました。これはデータセットの制限ではなく、スクリプトではオブジェクトの相互作用に焦点が当てられているためです。
参加者は、データの使用、公開、永続的な保存に同意しました。

3.1.3 Splits (データセットの分割)

Perception Test は、11,609本のビデオ (音声付き) で構成され、平均の長さは23秒です。
データセットは、ファインチューニングまたはプロンプトに使用できる小規模な訓練セット (2,184本のビデオ、約20%)、検証セット (5,900本のビデオ、約50%)、そして評価サーバーを通じてアクセスできる非公開テストセット (3,525本のビデオ、約30%) に分割されています。
3つの分割において、すべてのアノテーションの種類とカメラの動きがバランスよく含まれるように最適化されています。

まとめ

Perception Test のビデオは、多様な参加者によって撮影され、知覚的に興味深い状況を示すように設計されたスクリプトに基づいています。データセットは、訓練、検証、テストの3つに分割されており、汎化能力を重視したモデル評価を可能にします。

4 Annotaions in the Perception Test

このセクションでは、Perception Test のビデオに付与された6種類のアノテーションについて解説します。これらのアノテーションは、低レベルから高レベルの側面、空間的および時間的側面をカバーし、言語ベースおよび非言語ベースの評価を可能にします。

4.1 Annotations in the Perception Test

Perception Test のビデオには、以下の6種類のアノテーションが付与されています。

1. Object tracks (オブジェクト軌跡):

ベンチマークの基盤となるアノテーションです。
他のアノテーション (多肢選択式ビデオQAを除く) は、オブジェクト軌跡にリンクまたは接地されています。
アノテーションプロセスでは、人が操作するオブジェクトと、人が行動している領域のすぐ近くにあるオブジェクト (妨害オブジェクトとして機能) に焦点を当てるよう指示しました。
ビデオ全体を通して1fpsでバウンディングボックスをアノテーションしました。これは、アノテーション密度とアノテーションコストのバランスが良いからです。
オブジェクトが遮蔽されている場合は、ボックスのおおよその位置をマークしました。
液体が注がれる、オブジェクトが破れるなど、あいまいなクラスもいくつか残っています。
オブジェクト名はオープンボキャブラリーで定義されました。
アノテーターは通常、オブジェクトの属性 (色、材質など) も含めていたため、多数の固有名詞が使用されています。
付録の図A1 (左) に、最も頻度の高い単語 (オブジェクトまたは属性) のリストと、オブジェクト軌跡のさまざまなカテゴリ (行動や音に関連するオブジェクト、カメラの動きと相関のあるオブジェクトなど) への分布 (表A1) が示されています。

2. Cups-game subset (カップゲームのサブセット):

カップゲームのスクリプトに対応するビデオを分離しました。
これらのビデオは、オブジェクト追跡モデルの運動、物体恒存性、遮蔽された相互作用に関する推論能力を評価するのに適しています。
タスクの難易度には、ゲームで使用されるオブジェクトが同一かどうかや、透明かどうかや、オブジェクトの数など、さまざまな要因が影響します。
このサブセットには598本のビデオが含まれており、そのうち483本は同一のカップを使用し、113本は透明なカップを使用しています。
ほとんどのビデオは3つのカップを使用し (451本)、132本は2つのカップ、34本は4つのカップを使用しています。
各ビデオには、隠されたオブジェクトが遮蔽されているタイミングを示す可視性マスクも用意されています。

3. Point tracks (ポイント軌跡):

バウンディングボックスに基づくオブジェクト軌跡は、オブジェクトの恒存性、堅牢性、大まかな動きといった物理的特性を評価できますが、関節のあるオブジェクトや非剛体オブジェクト、軸に沿っていない薄いオブジェクト、面外の回転を完全に記述することはできません。
オブジェクト表面が時間とともにどのように移動および変形するかを追跡できれば、物理的相互作用をよりよく理解できます。
この目的のために、TAP-Vidのプロトコルに従って、オブジェクト表面上のポイント軌跡をアノテーションしました。
アノテーターは、オブジェクト追跡タスクでラベル付けされたオブジェクトのさまざまな部分を網羅するポイントを選択するよう指示されました。
遮蔽されたポイントは、単に遮蔽されたとマークされ、追跡されません。
半透明のオブジェクト (例：ガラスコップ) の場合、カメラに最も近い表面に属するポイントのみを「可視」と見なします。
アノテーションされたポイントは時間的に高密度 (30fps) です。
付録の表A2は、移動しているポイントと静止しているポイント、および移動カメラのビデオ上のポイントの分布を示しています。

4. Action segments with action-relevant objects (行動関連オブジェクトを含む行動セグメント):

時間的理解を捉え、時間軸上での根拠付けを可能にするために、[26] と同様に、固定されたテンプレートラベル (例：何かを何かに入れる) に属する時間セグメントをアノテーションしました。
これらは、行動に関連するオブジェクト軌跡、つまり行動に関わるオブジェクトに関連付けられています。
行動の境界は、行動関連オブジェクトとの接触に基づいて定義されます。
例えば、人がお茶に砂糖を入れる場合、「何かを何かに入れる」という行動は、人がスプーンを持ち上げたときに始まり、人がスプーンを置いたときに終わります。
砂糖を入れた後、同じスプーンでかき混ぜ始めると、行動の種類が変わったため、新しいセグメントとして定義されます。
データセット全体における行動の頻度は、付録の図A1 (右) に示されています。

5. Sound segments with sound-relevant objects (音関連オブジェクトを含む音セグメント):

行動セグメントのアノテーションと同様に、音声モダリティに適用されます。
ビデオを見て音声を聞くことで、アノテーターは時間的音声セグメントを定義し、16の音声セグメントラベルのリストからラベルを付けます。
各音について、アノテーターは音を出しているオブジェクト (複数可) を特定するか、それらがカメラの視野外にあることを指定します。
例えば、オブジェクトがテーブルに置かれ、 audible な音が聞こえる場合、オブジェクト軌跡とテーブル軌跡の両方が音声セグメントに関連付けられます。
データセット全体における音の頻度は、付録の図A2に示されています。

6. Question-answers for video-level reasoning (ビデオレベルの推論のための質問応答):

既存のVQAデータセットは、クラウドソーシングされた質問と回答に依存していますが、Perception Test では、研究チームが各スクリプトに対して質問を設計しました。
これらの質問は、記述的、説明的、予測的、反事実的といったさまざまな種類の推論 [54] をカバーし、タスクの完了の理解、変化の検出など、現実世界での行動に重要な側面をカバーするように設計されています。
各ビデオに対する回答は、クラウドソーシング参加者によって提供されました。
あいまいな評価を避けるため、自由回答形式ではなく、多肢選択形式を採用しました。
難しい誤答選択肢を定義するために、人間の注釈者と、同じタイプのスクリプトの他のビデオの正解をサンプリングすることの両方を利用しました。
表3の下部と付録の図A3は、質問-ビデオペアの知覚スキル、スキル領域、推論の種類への分布を示しています。

7. Question-answers with answer-relevant objects (回答関連オブジェクトを含む質問応答):

高レベルのシーン理解能力と低レベルのシーン理解能力を結びつけるもう1つの方法として、言語形式で質問またはタスクを定義し、オブジェクト軌跡として回答を与える質問応答を用意しました。
上記の多肢選択式の質問応答と同様に、研究チームが質問を定義し、人間の評価者が既存のオブジェクト軌跡から回答を選択しました。
根拠に基づく質問は、スキル領域と推論の種類に関連付けられています。

表3: Perception Test のアノテーションの概要

表3は、Perception Test のアノテーションの種類、クラス数、アノテーション数、ビデオ数、フレームレートなどの情報をまとめて示しています。

まとめ

Perception Test のビデオには、オブジェクト軌跡、ポイント軌跡、行動セグメント、音声セグメント、多肢選択式ビデオQA、根拠に基づくビデオQAといった多様なアノテーションが付与されています。これらのアノテーションは、モデルの知覚能力と推論能力を、さまざまなレベル、側面、モダリティから包括的に評価することを可能にします。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up