What do different evaluation metrics tell us about saliency models?(Zoya, 2017)
概要
この論文では、視覚的注目モデルの評価における異なる指標の分析が行われ、8つの評価メトリックに関する実験と視覚化を通じて、メトリックの挙動と特性が明らかにされています。異なるメトリックがモデルのランキングに影響を与え、それには偽陽性や偽陰性の取り扱い、視覚バイアスの考慮、空間的な逸脱の取り扱い、および注目マップの前処理が関与しています。著者らはこれらの差異に基づいて特定の前提やアプリケーションにおいてメトリックを選択するための勧告も提供しています。
この論文で議論されているさまざまな評価基準とは何ですか?また、顕著性モデルのランク付けにおいて、それらはどのように違うのですか?
この論文では、ROC曲線下面積(AUC)、シャッフルAUC(sAUC)、正規化スキャンパスサリエンシー(NSS)、ピアソンの相関係数(CC)、地球移動距離(EMD)、類似度またはヒストグラム交差(SIM)、カルバック・ライブラー発散(KL)、情報利得(IG)など、顕著性モデルの評価指標について説明しています。これらのメトリクスは、偽陽性と偽陰性をどのように扱うか、視聴バイアスを考慮するか、空間的偏差を考慮するか、顕著性マップをどのように前処理するかなどの様々な要因により、顕著性モデルをどのようにランク付けするかで異なります。
例えば、知覚に基づくランキングは、NSS、CC、SIMと密接に一致し、KLやEMDからは最も遠い。人間の知覚を駆動する特性は、顕著性の他のアプリケーションに望まれる特性とは異なる可能性がある。異なるモデルやメトリクスの基礎にある仮定をより注意深く考慮する必要があり、異なるメトリクスの動作や特性は、評価にどのメトリクスを使用するかの決定に入るべきである。
評価メトリックの選択は、顕著性がどのように定義され、どのようにグランドトゥルースが表現されるかに依存する。評価指標は、どのように顕著性モデルをランク付けするかで異なり、これは、偽陽性と偽陰性をどのように扱うか、視聴バイアスを考慮するかどうか、空間的偏差を考慮するかどうか、および顕著性マップをどのように前処理するかによって生じる。
要約すると、論文で議論されているさまざまな評価メトリクスは、さまざまな要因や仮定の扱いが異なるため、顕著性モデルをランク付けする方法に違いが生じます。これらの違いは、顕著性モデルを評価するために最も適切なメトリクスを選択する際に、メトリクスの特性と動作を注意深く考慮することの重要性を浮き彫りにしています。
偽陽性と偽陰性は、顕著性モデルのランキングにどのような影響を与え、評価指標でどのように扱われるのか?
偽陽性と偽陰性は、評価基準でどのように扱われるかによって、異なる方法で顕著性モデルのランキングに影響を与える可能性がある。偽陽性は、顕著であると予測されたが、実際には顕著でない領域を指し、偽陰性は、実際には顕著であるが、そのように予測されなかった領域を指す。
評価指標によって、偽陽性と偽陰性の扱いは異なる。例えば、AUCやsAUCのような測定基準は偽陽性により敏感で、KLやIGのような測定基準は偽陰性により敏感です。NSSとCCは偽陽性と偽陰性の影響を受けにくいので、顕著性モデルを評価するためのよりロバストなメトリクスになります。
メトリクスが偽陰性をどの程度罰するかを直接比較するために、系統的なテストを行うことができる。例えば、25%、50%、75%の偽陰性によるスコアの低下を測定し、このスコアの変化を無限オブザーバー限界と偶然の間のスコア差で正規化することができる。この正規化されたスコアは、異なる測定基準が偽陰性をどのように罰するかを比較するために使用することができる。
要約すると、偽陽性と偽陰性は顕著性モデルのランキングに影響を与える可能性があり、評価メトリッ クによってその扱いが異なります。評価メトリクスで偽陽性と偽陰性がどのように扱われるかを理解することは、顕著性モデルの評価に最も適したメトリクスを選択するために重要です。
特定の前提の下で、特定の用途のために、どのような指標の選択を推奨し、どのように実際のシナリオに適用できるのか。
この論文は、特定の前提の下で、特定のアプリケーションのためのメトリック選択の推奨を提供する。例えば、物体や動きの検出、監視、ローカライゼーションやマッピング、セグメンテーションなど、顕著性の検出アプリケーションには、AUC、KL、IGのようなメトリックが適切であろう。適応的な画像・動画圧縮やプログレッシブ伝送、コンテンツを意識した画像の再ターゲッティングやトリミング、レンダリングや可視化、コラージュ、芸術的なレンダリングなどのアプリケーションでは、NSSやSIMのようなメトリクスがより有用な評価を提供するでしょう。
これらの推奨は、特定のアプリケーションの仮定と要件を注意深く考慮し、顕著性モデルを評価するための最も適切なメトリックを選択することにより、実用的なシナリオに適用することができる。例えば、物体検出のための顕著性モデルを評価することが目的であれば、AUC、KL、IGを用いて、可能性のある物体位置の確率密度を生成し、見逃したターゲットにペナルティを与えるモデルの能力を評価することができる。一方、コンテンツを考慮した画像の再ターゲティングのために顕著性モデルを評価することが目的であれば、NSSやSIMを使用して、重要度や顕著性によって異なる画像領域をランク付けするモデルの能力を評価することができます。
要約すると、特定のアプリケーションの要件と目標を慎重に検討し、顕著性モデルを評価するための最も適切なメトリックを選択することにより、特定の前提条件の下で、特定のアプリケーションのためのメトリックの選択のための勧告は、実用的なシナリオに適用することができます。