Review of Visual Saliency Prediction: Development Process from Neurobiological Basis to Deep Models(Fei, 2022)
視覚的顕著性予測データセット
静止画像データセット
TORONTO, MIT300, MIT1003, DUT-OMRON, CAT2000, SALICON. EMOd
動画データセット
DIEM, UCF-sports, Hollywood-2, DHF1K, LEDOV
視覚的顕著性予測の評価尺度
AUC variant
Area Under Curve(AUC : 曲線下面積)は、2クラスパターン認識問題の測定基準として使用される。ターゲット検出や画像セグメンテーションなどのタスクにおけるAUCとは異なり顕著性予測タスクの特殊性を考慮すると、以下のようなAUCのバリエーションが、顕著性予測タスクでよく使用される。
- AUC-Judd
ある閾値に対して ある閾値に対して、真陽性確率は、すべての真値顕著点上で有意と予測されたピクセルの比率である。一方、偽陽性確率は 偽陽性確率は、非サリエントポイント上で有意と予測されたピクセルの比率である。
- AUC-Borji
この変種は、非焦点点の一様なランダムサンプリングを用いて偽陽性率を計算し、閾値以上の顕著性マッピング値を偽陽性と定義する。AUC-Borjiにおける偽陽性計算は、AUC-Juddにおける計算の離散近似である。ランダム・サンプリングの使用により 同じモデルを評価しても結果が異なる場合がある。
- Shuffled AUC
他の画像の分布をサンプリングすることで中心シフトに対するAUCの感度を下げる。
Normalized Scanpath Saliency (NSS)
NSSは、顕著性予測のユニークな評価指標である。これは、注目点における平均正規化有意値を計算するために使用される。
Linear Correlation Coefficient (CC)
CCは、2つの確率変数の間の線形相関を測定するために使用される統計量である。有意予測評価のために 予測有意マップ(P)と真値ビュー(G)を2つの確率変数とみなすことができる。
Earth Movers Distance (EMD)
EMDは、GとSで示される2つの2次元マップ間の距離を表し、顕著性マップSの推定確率分布をGで示されるGTマップの確率分布に変換するための最小コストを計算する。従って、EMDが低いほど高品質な顕著性マップとなる。顕著性予測では、EMDは顕著性マップSの確率分布の推定値を固視マップと呼ばれる人間の目の注意マップに変換するための最小のコストを表している。
Kullback–Leibler (KL)
KLダイバージェンスは、一般的な情報理論の2つの確率分布の差に対応する測定値である。
Similarity Metric (SIM)
SIMは2つの分布間の類似度を測定する.入力マップを正規化した後、SIMは各ピクセルの最小値の合計として計算される。
一般的に、これらの評価尺度は補完的なものである。なぜなら、これらの評価尺度は顕著性マップの異なる側面を反映するからである。通常、モデルを評価する際には、様々な評価尺度が選択される。ロケーションベースの尺度として広く使われているAUCは不可欠である。同時に、領域や類似性のような他の顕著な地図要素を反映するためにCC、SIM、その他の分布に基づく尺度などを選択する必要がある。
視覚的顕著性予測モデルの性能
MIT300やCAT2000、DHF1Kに対しての各種アルゴリズム適応時のパフォーマンス
深層視覚顕著性モデルの共通点と限界
深層学習を用いた視覚的注目予測モデルの共通点と制限について詳細に説明されています。これらのモデルの共通点には、自動的な特徴抽出、エンドツーエンドのトレーニング、最適化手法の類似性などが含まれます。一方、モデルの制限には、マルチモーダルなタスクや意味理解における制約、モデルの認識能力の限界などが挙げられています。
-
共通点:
深層学習を用いた視覚的注目予測モデルは、自動的に特徴を抽出する能力を持っています。これにより、従来の手作業で設計されたモデルよりも多くの特徴を捉えることができます。また、これらのモデルはエンドツーエンドでトレーニングされるため、特徴抽出と注目の予測を統合的に行うことができます。さらに、これらのモデルは最適化手法においても類似したアプローチを取ることが多いです。 -
制限:
一つの制限として、深層学習を用いた視覚的注目予測モデルは、マルチモーダルなタスクや意味理解においては限界があります。また、これらのモデルの認識能力にも制約があり、特定の複雑な認識タスクにおいては十分な性能を発揮できないことがあります。
制限を克服するためには、新しいデータセット、複数のモデルを組み合わせたアプローチ、可視化、より高度な意味理解などを検討していく必要があると書かれています。
所感
State-of-the-Art in Visual Attention Modelingよりも新しいレビュー論文なだけあって、深層学習を用いた顕著性モデルに関しての記載が多く、現在までの達成と課題がわかった。特に動画に関して深層学習は大変なのでchatGPTのように基盤モデルが欲しいところだが、画像用の基盤モデルは顕著性に関してどの程度考慮しているものなのだろうか?