0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Qiita100万記事感謝祭!記事投稿キャンペーン開催のお知らせ

論文読み : Improving Zero-Shot Generalization for CLIP with Variational Adapter

Posted at

こんにちは.
大学で画像認識の研究をしていく中で,今まで読んだ論文を自分用にまとめていこうと思います.内容について間違いなどあれば指摘していただければ幸いです.

今回の論文

ECCV2024より
https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/03044.pdf

概要

この論文では,事前学習されたVision Language Modelをファインチューニングする手法として「Prompt-based Variational Adapter (PVA)」を提案.それぞれのエンコーダにSpherical Variational Autoencoder (SVAE)を接続して,未知クラスと既知クラスの特徴を分離し,未知クラスの予測性能を向上させた.

先行研究と比べてどこがすごいのか

上図はt-SNEでクラスごとの画像を視覚化したものであるが,ある程度似ているクラス(bobcatとleopardとtigerなど)は図(a)のように画像特徴がオーバーラップしているためなかなか上手くできない.この論文ではbaseクラスとnovelクラスを分離することで予測バイアスを減少させ,未知クラスの分類精度を向上.Generalized Zero-Shot ClassificationでSOTAを達成した.

技術や手法の”キモ”はどこにある?

以下がPVAの概要.
スクリーンショット 2024-10-19 15.53.35.png
学習時のロスの説明.
$L^{svae}_{visual}$

$L^{svae}_{text}$
- SVAEのロス

$L_{dis}$
- 視覚的潜在分布とテキスト潜在分布を一致させるためのロス

$L_{cr}$
- 視覚的特徴量とテキスト特徴量の対応するカテゴリを潜在空間においてさらに一致させるためのロス

$L^{pl}_{cls}$

$L^{la}_{cls}$
- インスタンスレベルと潜在レベルでの制約をすることで特徴混合を減らす

推論時.
テスト画像を入力したときの潜在変数と学習済みクラスラベルを入力したときの潜在変数のコサイン類似度を計算して,ある閾値より大きければbase domainのクラス,ある閾値より小さければnovel domainのクラスとしてグループ分けする.その後,グループ分けされた後はそれぞれのタスク (supervisedとZSL) として分類.さらにオリジナルのCLIPの特徴量を利用して出力を洗練.

評価

スクリーンショット 2024-10-19 17.40.18.png
AwA2とSUNの調和平均でベストスコア.CUBではPSVMAに劣るが,人工的に調整しない手法の中では一番精度が良い.また,テキストトークンのみを学習するCoOPと比べるとAwA2で15.3%の向上していることから,予測バイアスの軽減が効果的であることがわかる.

以下はOpen-world settingでの評価.
スクリーンショット 2024-10-19 17.50.04.png

懸念点

追加的な学習コストが高い.

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?