※ このページは「LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images」の要約になります。
このページでわかること
- LLaVA-UHDは、任意のアスペクト比と高解像度画像を効率的に認識するための大規模マルチモーダルモデル
- 画像を可変サイズのスライスに分割してエンコードし、圧縮モジュールと空間スキーマを活用
- 従来のモデルよりも優れた性能を示し、特にテキストVQAで精度向上を達成
対象読者
- 視覚と言語の統合に関する先進的な技術やアルゴリズムに興味がある人
- 高解像度画像処理や任意のアスペクト比に対応する効率的なモデルの設計と実装に関心がある人
の問題点
従来の大規模マルチモーダルモデル(LMM)が画像を固定サイズや低解像度で処理することに伴う以下の問題です:
-
適応性の欠如:従来のLMMは、画像を固定サイズ(例えば1:1のアスペクト比)や低解像度で処理するため、さまざまなアスペクト比や高解像度の画像を効果的に扱うことができない。このため、画像の形状が歪んだり、内容がぼやけたりする問題が生じる
-
効率性の問題:高解像度画像を直接エンコードするには大規模な計算コストがかかり、また視覚エンコーダから生成される多くのトークンを処理することがLLMにとって負担となるため、効率的な画像処理が困難
-
正確性の問題:視覚エンコード戦略の不適切さが原因で、モデルが画像の内容を正確に認識できず、誤ったテキスト応答(事実に基づかない応答)を生成するリスクがある。これは特に細かいオブジェクトの理解や光学文字認識(OCR)において顕著
LLaVA-UHD
LLaVA-UHD とは?
LLaVA-UHD(LLaVA-Universal High-Definition)は、高解像度画像と任意のアスペクト比の画像を効率的に認識できる大規模マルチモーダルモデル(LMM)です。LLaVA-UHDは、画像をより小さな可変サイズのスライスに分割し、これを効率的にエンコードする新しい戦略を採用しています。また、視覚トークンを圧縮し、LLM(大規模言語モデル)に適した形式で配置することにより、計算効率と精度を向上させています。
LLaVA-UHD のメリット
- 適応性の向上:LLaVA-UHDは、画像を可変サイズのスライスに分割することで、任意のアスペクト比と高解像度の画像に適応できる
- 効率的な計算:圧縮モジュールを使用して視覚トークンを圧縮し、計算コストを低減しています。これにより、従来モデルと比較して高解像度画像を処理する際の計算効率が向上する
- 精度の向上:高解像度の画像を正確にエンコードすることで、特に細かいオブジェクトの理解や光学文字認識(OCR)において優れた精度を実現する
LLaVA-UHD のアーキテクチャ
LLaVA-UHDのアーキテクチャは、以下の3つの主要なコンポーネントから構成されています。
- 画像モジュール化戦略(Image Modularization Strategy)
- 圧縮モジュール(Compression Module)
- 空間スキーマ(Spatial Schema)
1. 画像モジュール化戦略
高解像度画像をより小さな可変サイズのスライスに分割します。この戦略により、以下のメリットがあります:
- 効率的なエンコード:画像を適切なサイズのスライスに分割することで、視覚エンコーダの負荷を軽減し、効率的に画像を処理できる
- 適応性:スライスのサイズは可変であり、画像のネイティブ解像度やアスペクト比に適応します。これにより、パディングや形状の歪みを避けることができる
スライスの分割方法は、画像の解像度(W × H)と視覚エンコーダの標準解像度(w × h)に基づいて決定されます。スライスの数は計算され、可能な分割方法(m × n)が評価されます。最適な分割方法は、視覚エンコーダの標準設定からの逸脱が最小となるように選択されます。
2. 圧縮モジュール
視覚エンコーダから出力される視覚トークンを圧縮し、LLMに適した形式で提供します。このモジュールは以下の特徴があります:
- Perceiver Resampler:視覚トークンを固定数のクエリベクトルに圧縮し、クロスアテンションを使用して効率的に処理します。これにより、従来のMLPベースの方法よりも少ない計算コストで視覚情報を圧縮できる
- 固定トークン数:視覚トークンの数は画像の解像度に依存せず、固定された数に保たれます。これにより、高解像度画像の処理が効率化される
3. 空間スキーマ
圧縮されたスライストークンをLLMに適切に伝えるためのスキーマです。具体的には、スライスの位置情報をLLMに伝えるための特別なトークンを使用します。
- カンマ(,)と改行(\n)トークン:スライスの行を区切るためにカンマ、行間を区切るために改行を使用します。これにより、LLMはスライスの位置情報を理解しやすくなる
LLaVA-UHD の性能
LLaVA-UHDは、9つのベンチマークで従来のLMMを上回る性能を示しています。特に、テキストVQA(Visual Question Answering)では6.4ポイントの精度向上を達成しています。また、計算効率も高く、LLaVA-1.5と比較して94%の推論計算コストで6倍の解像度(672×1088)をサポートしています。これにより、低解像度画像に起因するぼやけや歪みを回避し、精度の高い画像認識を実現しています。
まとめ
以上がLLaVA-UHDの要約でした。LLaVA-UHDは話題になっていたマルチモーダルモデルですが、GPT-4VはOCRの精度が悪いと思っていたのでその解決になるようなモデルであれば嬉しいですね。
おわり。