State-of-the-Art in Visual Attention Modeling(Ali, 2013)
分類上のモデルの種類についてもう少し記載しておく。
認知モデル
まず認知心理学的な概念に基づいた注意モデルについて説明されています。
Ittiらの基本モデル(*1)は、色、強度、方向の3つの特徴チャンネルを使用しています。このモデルは、後のモデルの基礎となり、比較のための標準ベンチマークとして使用されています。このモデルは、人間の自由視野課題における視線運動と相関することが示されています。このモデルでは、入力画像はガウスピラミッドにサンプリングされ、各ピラミッドレベルは、赤(R)、緑(G)、青(B)、黄色(Y)、強度(I)、および局所方向(O)のチャンネルに分解されます。これらのチャンネルから、異なる特徴lのための中心-周囲の「特徴マップ」f_lが構築され、正規化されます。各チャンネルでは、マップはスケール全体で合計され、再度正規化されます。
このセクションでは、他の注意モデルについても説明されています。これらのモデルには、KochとUllmanのモデル、Treismanのフィーチャー結合理論、Parkhurstらのモデル、Liらのモデルなどが含まれます。これらのモデルは、色、強度、方向、テクスチャなどの特徴を使用して、視覚的な注意をモデル化しています。
認知モデル
まず認知心理学的な概念に基づいた注意モデルについて説明されています。
Ittiらの基本モデル[1]は、色、強度、方向の3つの特徴チャンネルを使用しています。このモデルは、後のモデルの基礎となり、比較のための標準ベンチマークとして使用されています。このモデルは、人間の自由視野課題における視線運動と相関することが示されています。このモデルでは、入力画像はガウスピラミッドにサンプリングされ、各ピラミッドレベルは、赤(R)、緑(G)、青(B)、黄色(Y)、強度(I)、および局所方向(O)のチャンネルに分解されます。これらのチャンネルから、異なる特徴lのための中心-周囲の「特徴マップ」f_lが構築され、正規化されます。各チャンネルでは、マップはスケール全体で合計され、再度正規化されます。
このセクションでは、他の注意モデルについても説明されています。これらのモデルには、KochとUllmanのモデル、Treismanのフィーチャー結合理論、Parkhurstらのモデル、Liらのモデルなどが含まれます。これらのモデルは、色、強度、方向、テクスチャなどの特徴を使用して、視覚的な注意をモデル化しています。
ベイズモデル
ベイズモデルは、視覚的な情報と先行知識を確率的に組み合わせることによって、視覚的な注意をモデル化します。これらのモデルは、視覚的な情報を「観測」、先行知識を「事前分布」として表現し、これらを組み合わせて「事後分布」を計算します。事後分布は、視覚的な情報と先行知識の両方から得られる確率的な推定値を提供します。
このセクションでは、Torralbaらのモデル[2]やOlivaらのモデル[3]など、いくつかのベイズモデルについて説明されています。これらのモデルは、視覚的な情報と先行知識を組み合わせて、視覚的な注意をモデル化します。例えば、Torralbaらのモデルでは、視覚的な情報に加えて、シーン全体の特徴を要約するグローバル特徴を使用しています。Olivaらのモデルでは、視覚的な情報、グローバル特徴、およびオブジェクトの特徴を線形的に統合しています。
ベイズモデルは、視覚的な情報と先行知識を確率的に組み合わせることによって、視覚的な注意をモデル化するための強力な方法を提供します。これらのモデルは、自然なシーンの統計情報や、オブジェクトの特徴など、様々な種類の先行知識を組み込むことができます。
ベイズモデル
ベイズモデルは、視覚的な情報と先行知識を確率的に組み合わせることによって、視覚的な注意をモデル化します。これらのモデルは、視覚的な情報を「観測」、先行知識を「事前分布」として表現し、これらを組み合わせて「事後分布」を計算します。事後分布は、視覚的な情報と先行知識の両方から得られる確率的な推定値を提供します。
このセクションでは、Torralbaらのモデル[2]やOlivaらのモデル[3]など、いくつかのベイズモデルについて説明されています。これらのモデルは、視覚的な情報と先行知識を組み合わせて、視覚的な注意をモデル化します。例えば、Torralbaらのモデルでは、視覚的な情報に加えて、シーン全体の特徴を要約するグローバル特徴を使用しています。Olivaらのモデルでは、視覚的な情報、グローバル特徴、およびオブジェクトの特徴を線形的に統合しています。
ベイズモデルは、視覚的な情報と先行知識を確率的に組み合わせることによって、視覚的な注意をモデル化するための強力な方法を提供します。これらのモデルは、自然なシーンの統計情報や、オブジェクトの特徴など、様々な種類の先行知識を組み込むことができます。
意思決定理論に基づく注意モデル
意思決定理論に基づく注意モデルは、最適な意思決定を行うために、周囲の環境の状態についての最適な判断を行うように進化した知覚システムを想定しています。
これらのモデルは、視覚的な情報を使用して、最適な意思決定を行うために必要な情報を抽出します。これらのモデルは、視覚的な情報を使用して、最適な意思決定を行うために必要な情報を抽出します。例えば、GaoとVasconcelosのモデル[4]では、認識に必要な情報を最もよく区別する特徴を「顕著な特徴」として定義しています。彼らは、最適な意思決定を行うために、顕著な特徴に注目することを提案しています。
グラフィカルモデル
グラフィカルモデルに基づく注意モデルは、時間の経過に伴って変化する視覚的な情報を扱うために、隠れ変数を含む確率的なモデルを使用します。隠れ変数を使用して、視覚的な情報をより正確にモデル化することができます。
Hidden Markov Models(HMM)、Dynamic Bayesian Networks(DBN)、Conditional Random Fields(CRF)など、いくつかのグラフィカルモデルに基づく注意モデルが存在します。
周波数解析に基づく注意モデル
周波数解析に基づく注意モデルについて説明されています。これらのモデルは、画像の周波数成分を分析して、視覚的な注目の場所を決定します。
このセクションでは、HouとZhangのスペクトル残差モデル[5]など、いくつかの周波数解析に基づく注意モデルについて説明されています。HouとZhangのモデルでは、画像の周波数成分を分析して、視覚的な注目の場所を決定します。彼らは、画像のスペクトル残差を計算し、スペクトル残差が大きい領域が視覚的に注目される領域であると仮定しています。
周波数解析に基づく注意モデルは、画像の周波数成分を分析することによって、視覚的な注目の場所を決定するための強力な方法を提供します。これらのモデルは、画像の周波数成分を分析することによって、視覚的な注目の場所を決定するための強力な方法を提供します。これらのモデルは、視覚的な注意の基本的なメカニズムについて理解を深めるのに役立ちます。ただし、これらのモデルは、生物学的に現実的であるかどうかは明確ではありません。
パターン分類モデル
機械学習アプローチに基づく注意モデルについて説明されています。これらのモデルは、記録された視線の集中点やラベル付けされた注目領域からモデルを学習することで、視覚的な注目をモデル化します。
このセクションでは、Kienzleらのモデル[6]など、いくつかのパターン分類モデルについて説明されています。Kienzleらのモデルでは、画像パッチから実数値への非線形マッピングを行い、視線の集中点に正の出力を、ランダムに選択された画像パッチに負の出力を与えるようにトレーニングされたモデルが提案されています。このモデルは、視覚的な注目を決定するためのサポートベクターマシン(SVM)を使用しています。
パターン分類モデルは、記録された視線の集中点やラベル付けされた注目領域からモデルを学習することで、視覚的な注目をモデル化するための強力な方法を提供します。これらのモデルは、視覚的な注目の基本的なメカニズムについて理解を深めるのに役立ちます。ただし、これらのモデルは、生物学的に現実的であるかどうかは明確ではありません。
その他のモデル
その他のモデルとして、先行のカテゴリーには当てはまらない注意モデルについても説明されています。このセクションでは、RamstromとChristiansenによるゲーム理論の概念に基づく注目モデル[7]や、Raoらによるテンプレートマッチング型のモデル[8]などが紹介されています。
RamstromとChristiansenのモデルでは、ゲーム理論の概念に基づいた注目モデルが導入されており、特徴マップがスケールピラミッドを使用して統合され、市場で取引が行われ、その結果が注目度を表すと仮定しています。一方、Raoらのモデルは、画像内の各場所に対して目的のターゲットのテンプレートをスライドさせ、テンプレートとローカル画像パッチの類似性をいくつかの類似性尺度を使用して計算し、注目度を決定します。
これらのその他のモデルは、従来のカテゴリーには当てはまらないが、視覚的な注目の理解を深めるために重要な洞察を提供しています。これらのモデルは、視覚的な注目のメカニズムについての理解を補完し、注意モデルの多様性を示しています。
議論
最後に注意モデルに関するいくつかの未解決の問題について議論されています。以下は、いくつかの重要な内容です。
-
注意モデルの生物学的な信頼性に関する問題:注意モデルが生物学的に現実的であるかどうかは、未解決の問題です。生物学的に現実的なモデルは、視覚的な注目の基本的なメカニズムについての理解を深めることができます。しかし、生物学的に現実的なモデルを開発することは、困難な課題であり、現在のところ、完全に達成されていません。
-
注意モデルの評価に関する問題:注意モデルの評価は、未解決の問題の1つです。注意モデルの評価には、さまざまな評価尺度が使用されますが、どの評価尺度が最も適切であるかは明確ではありません。また、注意モデルの評価には、データの収集やモデルのトレーニングなどの問題もあります。
-
注意モデルの応用に関する問題:注意モデルの応用には、いくつかの問題があります。注意モデルは、視覚的な注目の基本的なメカニズムについての理解を深めることができますが、実際の応用には、注意モデルの精度や速度などの問題があります。また、注意モデルは、生物学的に現実的であるかどうかに関する問題もあります。
以上のように、注意モデルにはいくつかの未解決の問題があります。これらの問題を解決するためには、より多くの研究が必要です。
参考文献
[1] L. Itti, C. Koch, and E. Niebur, “A Model of Saliency-Based Visual Attention for Rapid Scene Analysis,” IEEE Trans. Pattern Analysis
[2] A. Torralba, “Modeling Global Scene Factors in Attention,” J. Optical Soc. Am., vol. 20, no. 7, pp. 1407-1418, 2003.
[3] A. Oliva, A. Torralba, M.S. Castelhano, and J.M. Henderson, “TopDown Control of Visual Attention in Object Detection,” Proc. Int’l Conf. Image Processing, pp. 253-256, 2003.
[4] D. Gao and N. Vasconcelos, “Discriminant Saliency for Visual Recognition from Cluttered Scenes,” Proc. Advances in Neural Information Processing Systems, 2004.
[5] X. Hou and L. Zhang, “Saliency Detection: A Spectral Residual Approach,” Proc. IEEE Conf. Computer Vision and Pattern Recognition, 2007.
[6] W. Kienzle, M.O. Franz, B. Scho¨lkopf, and F.A. Wichmann, “Center-Surround Patterns Emerge as Optimal Predictors for Human Saccade Targets,” J. Vision, vol. 9, pp. 1-15, 2009
[7] J.K. Tsotsos, S.M. Culhane, W.Y.K. Wai, Y. Lai, N. Davis, and F.Nuflo, “Modeling Visual Attention via Selective Tuning,” Artificial Intelligence, vol. 78, nos. 1-2, pp. 507-545, 1995.
[8] O. Ramstro¨m and H.I. Christensen, “Visual Attention Using Game Theory,” Proc. Biologically Motivated Computer Vision Conf., pp. 462-471, 2002.
所感
網羅的なサーベイとして非常によく調査されている.
視覚的注意モデルに関して、分類時に着目する点やモデルの種類など概要を把握するにはとてもよい論文だろう