こんにちは.
大学で画像認識の研究をしていく中で,今まで読んだ論文を自分用にまとめていこうと思います.内容について間違いなどあれば指摘していただければ幸いです.
今回の論文
ECCV2024より
https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/03044.pdf
概要
この論文では,事前学習されたVision Language Modelをファインチューニングする手法として「Prompt-based Variational Adapter (PVA)」を提案.それぞれのエンコーダにSpherical Variational Autoencoder (SVAE)を接続して,未知クラスと既知クラスの特徴を分離し,未知クラスの予測性能を向上させた.
先行研究と比べてどこがすごいのか
上図はt-SNEでクラスごとの画像を視覚化したものであるが,ある程度似ているクラス(bobcatとleopardとtigerなど)は図(a)のように画像特徴がオーバーラップしているためなかなか上手くできない.この論文ではbaseクラスとnovelクラスを分離することで予測バイアスを減少させ,未知クラスの分類精度を向上.Generalized Zero-Shot ClassificationでSOTAを達成した.
技術や手法の”キモ”はどこにある?
以下がPVAの概要.
学習時のロスの説明.
$L^{svae}_{visual}$
$L^{svae}_{text}$
- SVAEのロス
$L_{dis}$
- 視覚的潜在分布とテキスト潜在分布を一致させるためのロス
$L_{cr}$
- 視覚的特徴量とテキスト特徴量の対応するカテゴリを潜在空間においてさらに一致させるためのロス
$L^{pl}_{cls}$
$L^{la}_{cls}$
- インスタンスレベルと潜在レベルでの制約をすることで特徴混合を減らす
推論時.
テスト画像を入力したときの潜在変数と学習済みクラスラベルを入力したときの潜在変数のコサイン類似度を計算して,ある閾値より大きければbase domainのクラス,ある閾値より小さければnovel domainのクラスとしてグループ分けする.その後,グループ分けされた後はそれぞれのタスク (supervisedとZSL) として分類.さらにオリジナルのCLIPの特徴量を利用して出力を洗練.
評価
AwA2とSUNの調和平均でベストスコア.CUBではPSVMAに劣るが,人工的に調整しない手法の中では一番精度が良い.また,テキストトークンのみを学習するCoOPと比べるとAwA2で15.3%の向上していることから,予測バイアスの軽減が効果的であることがわかる.
懸念点
追加的な学習コストが高い.