State-of-the-Art in Visual Attention Modeling(Ali, 2013)
分類基準についてもう少し詳しく見ていく。
定性的比較のための主要な基準
紹介された注意モデルの定性的比較のための主要な基準は以下の13つです。
- 生物学的妥当性
- アイムーブメントデータセットとの相関
- ボトムアップとトップダウンの分離
- 意味のあるパフォーマンス指標の構築
- モデルの複雑さ
- モデルの柔軟性
- モデルの汎用性
- モデルの計算効率
- モデルのパラメータ数
- モデルの学習要件
- モデルの適用範囲
- モデルの実装の容易さ
- モデルの性能の安定性
これらの基準は、注意モデルの特性や性能を定性的に比較するための指標として使用されています。
上記の分類基準は以下のような観点での比較を考慮しつつ作成された。
ボトムアップモデルとトップダウンモデル
ボトムアップモデルは、視覚的特徴に基づいて注意を引き付けるモデルであり、視覚的刺激に対する反応として自然に発生します。これらのモデルは、視覚的特徴の重要性を説明するために、GaborフィルターやDOGフィルターなどの手法を使用することが一般的です。ボトムアップモデルは、視覚的特徴に基づいて注意を引き付けるため、視覚的情報処理において重要な役割を果たします。
一方、トップダウンモデルは、認知的な要因に基づいて注意を引き付けるモデルであり、知識、期待、報酬、現在の目標などの認知的な現象によって決定されます。トップダウンモデルは、視覚的情報処理において、目標に基づいた注意の方向性を提供するために重要な役割を果たします。
ボトムアップモデルは、視覚的特徴に基づいて注意を引き付けるため、視覚的情報処理において重要な役割を果たします。一方、トップダウンモデルは、認知的な要因に基づいて注意を引き付けるため、目標に基づいた注意の方向性を提供するために重要な役割を果たします。
対象の特徴
対象の特徴が視覚的注意の誘導にどのように影響するかについて説明されています。
具体的には、対象駆動型の注意の誘導において、対象の特徴は視覚的注意を引き付ける重要な要因となります。例えば、赤いアイテムを探す場合、その赤い色が視覚的に目立つため、注意が速やかにその対象に向けられます。このように、色、形、輝度などの対象の特徴は、視覚的注意の誘導に重要な役割を果たします。
さらに、自然なシーンにおける対象の特徴の認識についても触れられており、例えば、複雑な対象である歩行者を探す場合、その対象の特徴を定義することが難しい場合でも、それらの特徴は視覚的注意の誘導に影響を与えます。
シーンコンテキスト
シーンコンテキストは、視覚的情報処理において、視覚的特徴だけでなく、シーン全体の情報を利用して注意を引き付けることができます。
例えば、室内と屋外のシーンを比較すると、室内のシーンでは、家具や壁紙などの特徴が視覚的注意を引き付けることがあります。一方、屋外のシーンでは、空や地面などの広い領域が視覚的注意を引き付けることがあります。このように、シーンコンテキストは、視覚的特徴だけでなく、シーン全体の情報を利用して注意を引き付けることができます。
また、シーンコンテキストは、視覚的情報処理において、視覚的特徴と同様に重要な役割を果たします。シーンコンテキストは、視覚的特徴と組み合わせて、視覚的注意の方向性を提供することができます。例えば、歩行者を探す場合、歩道や道路などのシーンコンテキストを利用して、歩行者がいる可能性が高い領域を特定することができます。
タスク依存
タスク要求は、視覚的情報処理において重要な要因であり、視覚的注意の配分に影響を与えます。例えば、特定のオブジェクトを見つけるというタスクでは、そのオブジェクトに関連する特徴が視覚的注意を引き付けることがあります。また、複雑なタスクにおいては、タスク要求が視覚的注意の配分に大きな影響を与えることがあります。例えば、運転中の視覚的情報処理では、道路の状況や周囲の車両など、複数のタスク要求が同時に存在し、注意の配分が複雑になります。
このセクションは、タスク要求が視覚的注意に与える影響に焦点を当て、視覚的情報処理において重要な役割を果たすことを示しています。タスク要求は、視覚的注意の配分に影響を与えるため、注意モデルの理解を深めるのに役立ちます。
空間的モデルと時空間的モデル
このセクションでは、視覚的情報処理において、空間的情報と時空間的情報がどのように重要な役割を果たすかについて詳しく説明されています。
まず、空間的モデルについて説明します。空間的モデルは、静止画像や静止シーンにおける視覚的注意の配分をモデリングするために使用されます。これらのモデルは、画像内の特定の領域や特徴に基づいて視覚的注意を予測します。一般的に、色、輝度、コントラストなどの視覚的特徴が空間的モデルによって利用されます。
一方、時空間的モデルは、動的な環境や動画などの時間的な変化を考慮して視覚的注意をモデリングするために使用されます。これらのモデルは、時間的な情報や動き、変化に基づいて視覚的注意を予測します。例えば、動画内での物体の動きや変化が視覚的注意に影響を与えることがあります。
空間的モデルは静止画像や静止シーンにおける視覚的注意の配分をモデリングするために使用され、一方、時空間的モデルは動的な環境や動画などの時間的な変化を考慮して視覚的注意をモデリングするために使用されます。
明示的な注意と暗黙的な注意
このセクションでは、視覚的情報処理において、明示的な注意と暗黙的な注意がどのように異なる役割を果たすかについて詳しく説明されています。
明示的な注意は、視覚的情報処理において、意図的に視覚的注意を向けることを指します。例えば、ある物体を見つけるために、その物体に意図的に視覚的注意を向けることが明示的な注意です。一方、暗黙的な注意は、視覚的情報処理において、意図的に視覚的注意を向けることなく、自然に視覚的注意が向けられることを指します。例えば、周囲の環境に自然に注意が向けられることが暗黙的な注意です。
このセクションでは、明示的な注意と暗黙的な注意の比較に焦点を当て、それぞれの注意の種類が視覚的情報処理においてどのように異なる役割を果たすかについて詳しく説明されています。明示的な注意は、意図的に視覚的注意を向けることができるため、特定のタスクにおいて非常に有用です。一方、暗黙的な注意は、自然に視覚的注意が向けられるため、周囲の環境に対する感覚的な情報を収集するために非常に有用です。
空間ベースのモデルと物体ベースのモデル
このセクションでは、視覚的情報処理における空間ベースのモデルと物体ベースのモデルがどのように異なるアプローチを取るかについて詳しく説明されています。
空間ベースのモデルは、視覚的情報処理において、視覚的注意を特定の空間的位置に向けることを重視しています。つまり、視覚的注意が特定の視覚的領域に集中することで、その領域に存在する情報を処理することを目指しています。一方、物体ベースのモデルは、視覚的情報処理において、物体を基本的な処理単位として扱い、物体に対する注意を重視しています。つまり、視覚的情報処理において、物体に対する注意を重視することで、物体の特定や認識を目指しています。
視覚的注意モデリングにおける特徴
このセクションでは、視覚的情報処理における特徴の種類やその処理方法について詳しく説明されています。
伝統的に、視覚的注意モデリングにおいては、明るさ(または明るさのコントラスト)、色、方向などの特徴が重要視されてきました。これらの特徴は、視覚的情報処理において重要な情報を提供し、物体の特定や認識に役立っています。明るさは、画像の輝度の平均値として実装され、中心と周囲のプロセスによって処理されます。色は、赤-緑や青-黄などの色の対立を利用して実装され、V1野の色対立ニューロンに触発された色の処理によって実装されます。方向は、方向に応じたガボールフィルターによる畳み込みなどの方法で実装されます。
このセクションでは、これらの特徴が視覚的情報処理においてどのように重要な役割を果たしているかについて詳しく説明されています。特徴は、視覚的情報処理において重要な情報を提供し、物体の特定や認識に役立っています。また、これらの特徴は、視覚的注意モデリングにおいて重要な要素であり、多くのモデルがこれらの特徴を利用して視覚的情報処理を行っています。
刺激とタスクの種類
このセクションでは、視覚的刺激の種類とそれに関連するタスクの種類について詳しく説明されています。
まず、視覚刺激は静的なもの(例:検索配列、静止した写真)と動的なもの(例:動画、ゲーム)に分類されます。静的な刺激は静止した状態で提供されるものであり、一方、動的な刺激は動画やゲームなどの動的な状況で提供されるものです。動的な刺激は、静的な刺激よりも複雑であり、認知的な振る舞いを多く含むため、視覚的注意モデリングにおいて重要な要素となります。
次に、刺激は合成的なもの(例:ガボールパッチ、検索配列、カートゥーン、仮想環境、ゲーム)と自然なもの(またはそれに類似したもの、写真や自然なシーンの動画など)に分類されます。合成的な刺激は、人工的に生成されたものであり、自然な刺激は自然なシーンやその近似物などが含まれます。これらの刺激の種類は、視覚的注意モデリングにおける刺激の特性や処理方法に影響を与えます。
評価尺度
視覚的注意モデルの評価に使用されるさまざまな尺度や方法について詳しく説明されています。
まず、視覚的注意モデルの評価には、さまざまな尺度が使用されます。これには、Kullback-Leibler(KL)ダイバージェンス、パーセンタイル、Fixation Saliency Method(FS)、Correlation Coefficient(CC)、***Normalized Scanpath Saliency(NSS)***などが含まれます。これらの尺度は、視覚的注意モデルの性能を評価し、モデルの予測と実際の視線データとの一致度を測定するために使用されます。
また、視覚的注意モデルの評価には、点に基づく尺度、領域に基づく尺度、主観的評価などが使用されます。点に基づく尺度では、モデルの予測された視覚的注目点が実際の視線データとどの程度一致するかを評価します。領域に基づく尺度では、モデルの予測された注目領域が人間の被験者によって注釈付けされた注目領域とどの程度一致するかを評価します。主観的評価では、モデルの予測された視覚的注目マップが「良好」「可受」「失敗」といったレベルで評価されます。
データセット
データセットとして、視線追跡データセットの種類、その特徴、およびそれらが視覚的注意モデリングにどのように使用されるかについて詳しく説明されています。
視線追跡データセットは、被験者が視覚的に注目した領域を記録するために使用されます。これらのデータセットには、静止画像、動画、自然なシーン、合成的なシーンなどが含まれます。これらのデータセットは、視覚的注意モデリングの評価に使用され、モデルの予測と実際の視線データとの一致度を測定するために使用されます。
このセクションでは、視線追跡データセットの種類について説明されています。これには、Bruce and Tsotsos、MIT1003、CAT2000、SALICON、COCO、PASCAL、DUT-OMRON、THUS10000などが含まれます。これらのデータセットは、静止画像、動画、自然なシーン、合成的なシーンなどを含み、視覚的注意モデリングの評価に使用されます。