What do different evaluation metrics tell us about saliency models?(Zoya, 2017)
17日目の続き、もう少し詳しく論文を見ていく.
実験のセットアップ
"3 EVALUATION SETUP"では、MIT300データセットの画像がどのように収集されたかについて説明されています。画像はFlickr Creative Commonsや個人の写真コレクションから取得され、240Hzで観察者の注視経路を記録するテーブルマウント型のビデオベースのETL 400 ISCANアイ・トラッカーを使用して、2秒間表示されました。タスク指示は「300枚の画像を見ます。各画像をよく見てください。画像を見た後、記憶テストがあります。特定の画像を以前に見たかどうかを判断してください。」でした。画像は500msの視線固定クロスで区切られました。前処理中に、各画像の最初の視線固定は捨てられ、視線固定クロスの中心バイアス効果を減らしました。また、異なる実験設定、タスク、画像、露出時間を持つ他のアイ・トラッキング・データセットのリストも提供されています。
測度の計算
"4 METRIC COMPUTATION"では、視覚的注目の評価指標の計算方法について説明されています。このセクションでは、使用される評価指標の実装によって、位置ベースの指標と分布ベースの指標に分類されることが示されています。また、ROC曲線のサンプリングしきい値の選択方法や、AUCやNSSなどの評価指標がどのように視覚的注目の分布を比較するかについても説明されています。さらに、このセクションでは、異なる評価指標の特性についての分析が提供され、それらの特性に基づいて、特定の評価指標を選択するための推奨事項が提供されています。
位置ベースの指標
"4.1 Location-based metrics"では、位置ベースの指標に焦点が当てられています。具体的には、視覚的注目を画像上の特定の位置に予測することを目的とした指標について説明されています。その中で、受信者動作特性曲線(ROC曲線)とその下の面積(AUC)について詳細に説明され、視覚的注目を二値分類器として評価する方法が提案されています。また、各指標の特性や利点についても解説されています。
分布ベースの指標
"4.2 Distribution-based metrics"では、分布ベースの指標に焦点が当てられています。これらの指標は、視覚的注目の分布を比較することを目的としています。具体的には、KLダイバージェンスや情報利得などの指標が説明されています。これらの指標は、視覚的注目の分布を確率分布として扱い、予測された分布と正解分布の間の類似性を評価します。分布ベースの指標は、位置ベースの指標と比較して、より高度な評価を提供することができます。しかし、分布ベースの指標は、正解分布と予測分布の両方を連続的な分布として扱うため、計算がより複雑になります。また、分布ベースの指標は、正解分布と予測分布の両方が正しい確率分布であることを前提としています。このため、正解分布や予測分布が不正確な場合、分布ベースの指標の評価が不正確になる可能性があります。このセクションでは、分布ベースの指標の特性や利点についても解説されています。
SIM(Similarity)
指標SIM(Similarity)は、視覚的類似性を評価するための指標であり、視線データの予測された分布と実際の注視分布との間の類似性を測定します。SIMは、ヒストグラムの重なり合いを測定することで、予測された分布と実際の分布の間の一致度を評価します。
SIMの計算方法は、予測された視覚的注目のマップと実際の注視マップのヒストグラムの重なり合いを測定します。この重なり合いは、分布同士の類似性を示し、予測された注目の分布が実際の注視分布にどれだけ近いかを示します。この指標は、予測された分布が実際の分布とどの程度一致しているかを定量化するため、視覚的な類似性を評価する際に有用です。
SIMは他の指標と比較しても重要な特徴を持っています。例えば、SIMはKullback-Leibler divergence(KL)と比較して、false negatives(実際には注目されるべき領域が予測されないこと)に対してより敏感ではありません。これは、SIMが予測された分布が実際の分布とどの程度一致しているかを評価するため、false negativesに対してあまり影響を受けないことを示しています。
また、SIMはPearson’s Correlation Coefficient(CC)とも比較されます。SIMとCCは数学的に密接に関連しており、これらの指標による視覚的類似性の評価は高い相関性を示します。SIMは、予測された注目の分布が実際の注視分布とどの程度一致しているかを評価する点でCCと類似していますが、異なる特性を持っています。
このように、SIMは視覚的な類似性を評価するための指標として、予測された注目の分布と実際の注視分布の一致度を測定し、他の指標と比較しても独自の特徴を持っています。
Pearsonの相関係数(CC)
Pearsonの相関係数(CC)は、視覚的注目のマップと実際の注視マップの間の線形関係を評価するための統計的手法です。この指標は、予測された注目の分布と実際の注視分布をランダム変数として解釈し、それらの間の線形関係を測定します。
CCの計算方法は、予測された視覚的注目のマップと実際の注視マップの間の線形相関を計算します。この相関は、予測された注目の分布と実際の注視分布の間の依存関係を示し、それらの間の線形関係の強さを定量化します。CCは、予測された分布と実際の分布の間の線形関係を評価するため、視覚的な類似性を測定する際に有用です。
CCは他の指標と比較しても重要な特徴を持っています。例えば、CCはSIMと比較して、false positives(実際には注目されるべきでない領域が誤って予測されること)とfalse negatives(実際には注目されるべき領域が予測されないこと)に対して対称的に影響を受けます。これは、CCが予測された分布と実際の分布の間の線形関係を評価するため、false positivesとfalse negativesの両方に対して均等に影響を受けることを示しています。
また、CCはSIMとも比較されます。SIMとCCは数学的に密接に関連しており、これらの指標による視覚的類似性の評価は高い相関性を示します。CCは、予測された注目の分布が実際の注視分布とどの程度一致しているかを評価する点でSIMと類似していますが、異なる特性を持っています。
このように、CCは視覚的な類似性を評価するための指標として、予測された注目の分布と実際の注視分布の間の線形関係を測定し、他の指標と比較しても独自の特徴を持っています。
Kullback-Leibler(KL)
Kullback-Leibler(KL)は、2つの確率分布間の差異を測定するための情報理論的な指標です。視覚的注目のマップと実際の注視マップの間の差異を評価するために、KLは、予測された注目の分布と実際の注視分布を確率分布として解釈し、それらの間の差異を測定します。
KLの計算方法は、予測された注目の分布と実際の注視分布の間の情報の損失を評価するために、KLダイバージェンスを使用します。KLは、予測された分布と実際の分布の間の差異を評価するため、視覚的な類似性を測定する際に有用です。
KLは、他の指標と比較しても重要な特徴を持っています。例えば、KLは、予測された注目の分布と実際の注視分布の間の差異を評価するため、視覚的な類似性を測定する際に有用です。KLは、予測された分布と実際の分布の間の差異を評価するため、視覚的な類似性を測定する際に有用です。
Earth Mover’s Distance (EMD)
地球移動距離(Earth Mover's Distance:EMD)は、ある領域上の2つの確率分布間の空間的距離を測定するために用いられる尺度である。もともとは画像マッチングのための空間的にロバストなメトリックとして導入された。EMDの計算には、一方の分布を他方の分布にモーフィングする際の最小コストを求めることが含まれ、これは、一方の分布から他方の分布に一致させるために移動させる必要のある密度の量として視覚化することができる。
EMDの計算は、輸送問題として定式化することができ、その目的は、ある分布から他の分布へ密度を移動させる総コストを最小化することである。このコストは、移動された密度の量に移動距離を掛けたもので、可視化されたピクセルの明るさに相当する。
EMDの主な特徴の1つは、分布の要素間の空間的距離を考慮することで、顕著性マップ間のきめ細かな比較を提供することである。この空間的な考慮は、顕著性予測値の空間的な分布がどの程度真実の固視マップと一致するかを評価することを可能にするため、EMDを他のメトリクスとは一線を画します。
KL(カルバック・ライブラー・ダイバージェンス)やIG(インフォメーション・ゲイン)などの他のメトリクスと比較すると、EMDはその空間的な感度と、顕著性マップと地上真実の固視との間の空間的な不一致を捉える能力で際立っている。KLが確率分布の違いに注目し、誤検出を罰するのに対し、IGは中心バイアスのベースラインモデルを上回る予測を行うモデルの能力を測定するのに対し、EMDは特に顕著性予測と固視の空間的配置を考慮するため、顕著性モデルの空間的精度を評価するための貴重なツールとなる。
要約すると、EMDはその空間的感度により、予測された顕著性と実際の固視との間の空間的整合をより包括的に評価することができ、顕著性モデルを評価するための価値ある指標である。しかし、計算量が多く、非局所的であるため、他の指標に比べて最適化が難しい。
評価指標の振る舞い分析
"5 ANALYSIS OF METRIC BEHAVIOR"では、視覚的注目の評価指標の振る舞いについて詳細に分析されています。このセクションでは、8つの評価指標に焦点が当てられ、それぞれの指標の特性や振る舞いが説明されています。
まず、位置ベースの指標と分布ベースの指標についての違いが示されています。位置ベースの指標は、特定の注目位置における視覚的注目の予測を評価するのに対し、分布ベースの指標は視覚的注目の分布全体を比較することを目的としています。それぞれの指標がどのような状況で有効であるかについても議論されています。
さらに、各指標の計算方法や特性について詳細に説明されています。たとえば、AUCの計算方法やROC曲線のサンプリングしきい値の選択方法、NSSの正規化方法などが解説されています。これにより、各指標の計算方法や振る舞いについて理解することができます。
また、異なる評価指標がどのように異なる状況で有用であるかについても議論されています。たとえば、検出アプリケーションにはAUC、KL、IGなどの指標が適しており、画像の異なる領域の相対的な重要性を評価する場合にはNSSやSIMなどの指標が適していることが示されています。
最後に、特定のアプリケーションや状況において、どの評価指標が最も適しているかについての推奨事項が提供されています。これにより、異なる状況において最適な評価指標を選択する際のガイドラインが提供されています。
このセクションでは、視覚的注目の評価指標に関する包括的な理解を提供するとともに、それぞれの指標の特性や適用可能な状況についての洞察を提供しています。
視覚的注目のベンチマークを設計する際の推奨事項
"6 RECOMMENDATIONS FOR DESIGNING A SALIENCY BENCHMARK"では、視覚的注目のベンチマークを設計する際の推奨事項について詳細に説明されています。
まず、期待される入力の定義について議論されています。異なる評価指標が異なる入力仮定に基づいているため、ベンチマークの設計においては、どのような入力が期待されるかを明確に定義することが重要です。特に、視覚的注目のモデルが確率的であるかどうか、データセットのバイアスが考慮されているかなどの仮定に基づいて、適切な入力を定義する必要があります。
さらに、異なるアプリケーションにおいて適切な評価指標を選択するためのガイドラインが提供されています。たとえば、検出アプリケーションにはAUC、KL、IGなどの指標が適しており、画像の異なる領域の相対的な重要性を評価する場合にはNSSやSIMなどの指標が適していることが示されています。これにより、特定のアプリケーションに最適な評価指標を選択する際の手順が提供されています。
さらに、視覚的注目のモデルが確率的である場合や、異なる画像領域の相対的な重要性を評価する場合など、異なる仮定や定義に基づいて適切な評価指標を選択するための推奨事項が提供されています。これにより、ベンチマークの設計において、適切な評価指標を選択するための指針が提供されています。
最後に、ベンチマークにおける入力データの取り扱いについての推奨事項が提供されています。たとえば、jpg形式の画像の使用や、モデルのエントリー形式の指定などが提案されています。これにより、ベンチマークの設計において、入力データの取り扱いに関する明確なガイドラインが提供されています。
このセクションでは、視覚的注目のベンチマークを設計する際の重要な考慮事項や推奨事項が包括的に提供されており、ベンチマークの設計において適切な評価指標や入力データの取り扱いについての洞察を提供しています。
結論
"7 CONCLUSION"では、視覚的注目のモデルの評価における異なる評価指標の振る舞いについての分析結果に基づいて、視覚的注目のモデルのランキングの違いを理解するための洞察が提供されています。
まず、入力データの特性が評価指標に異なる影響を与えることが強調されています。具体的には、地面事実の表現方法、予測がデータセットのバイアスを含むかどうか、入力が確率的であるかどうか、予測と地面事実の間に空間的なずれがあるかどうかなどが、評価指標にどのように影響するかが議論されています。これにより、これらの特性が評価指標に与える影響を理解することが重要であり、特定のアプリケーションにおいて最適な評価指標を選択する際に役立つことが示唆されています。
さらに、評価指標の選択に関する他の考慮事項として、評価指標の計算が費用対効果が高いかどうか、局所的かつ微分可能かどうかなどが挙げられています。これにより、モデルの最適化に適した評価指標を選択する際の考慮事項が提供されています。