#0060（2024/02/28）VLMとViTの違い

Posted at 2025-02-28

VLMとViTの違い

概要:
ViTは、画像認識タスクのために開発されたトランスフォーマーアーキテクチャをベースとしたモデルです。
画像を小さなパッチに分割し、それぞれをトークンとして扱い、従来の自然言語処理で用いられる自己注意機構（Self-Attention）を用いて特徴抽出を行います。
原理:
1. パッチ分割: 入力画像を固定サイズのパッチ（例えば16×16ピクセル）に分割します。
2. パッチの埋め込み: 各パッチをフラット化し、線形変換（全結合層）で高次元の埋め込みベクトルに変換します。
3. 位置エンコーディング: パッチの順序情報を保持するため、各埋め込みに位置エンコーディングを加えます。
4. トランスフォーマーエンコーダ: これらの埋め込みを複数のトランスフォーマー層に入力し、自己注意機構で画像全体の文脈を学習します。
5. 出力: 最終的な表現を用いて画像分類などのタスクを実行します。

概要:
VLMは、画像（ビジョン）とテキスト（ランゲージ）という異なるモダリティを統合して扱うモデルです。
これにより、画像キャプション生成、画像検索、視覚質問応答（VQA）など、視覚と言語の両方の情報を必要とするタスクに応用されます。
原理:
1. 視覚エンコーダ:
  - 画像部分は、ViTや従来のCNNなどを利用して特徴抽出が行われます。
  - ViTが採用される場合、画像はパッチに分割され、自己注意機構により全体の文脈が学習されます。
2. 言語エンコーダ:
  - テキスト部分は、BERTやGPTなどのトランスフォーマーベースのモデルでエンコードされます。
  - 文章や単語の意味的な特徴を抽出します。
3. 融合・アライメント:
  - 視覚特徴とテキスト特徴を同一空間にマッピングし、クロスモーダルな関連性を学習します。
  - たとえば、CLIPのようなモデルでは、画像とテキストの埋め込みを対照学習（contrastive learning）で整列させ、相互の類似度を計算します。

ViT:
- 対象: 画像データのみ
- 目的: 画像認識や分類タスク
- 特徴: 自己注意機構により画像のグローバルな文脈を把握
VLM:
- 対象: 画像とテキストという複数のモダリティ
- 目的: 視覚と言語の統合タスク（例：画像キャプション、画像検索、VQA）
- 特徴: 視覚エンコーダ（しばしばViTを利用）とテキストエンコーダを組み合わせ、クロスモーダルなアライメントを行う
まとめ:
- ViTは、画像認識のためのトランスフォーマーアーキテクチャであり、単一のモダリティ（画像）の処理に特化しています。
- VLMは、画像とテキストという異なる情報を統合するためのモデル群であり、その一部としてViTが視覚エンコーダとして利用されることもありますが、VLM自体はより広い用途（クロスモーダルな理解）を目的としています。