Predicting human gaze beyond pixels(Juan, 2014)
概要
新しい視覚の予測アーキテクチャを提案している。
従来の"ピクセル属性"だけでなく、"物体"や"意味"の情報も重要である(つまりボトムアップだけでなくトップダウンも?)。
特に、物体やセマンティック属性の共通の属性セットを提案し、その重要性を分析し、大規模なアイ・トラッキングデータセットを使用して人間の注視を正確に予測することを目指している。
ピクセルレベルの属性として、色、強度、方向が導入され、オブジェクトレベルの属性としてサイズ、複雑さ、凸面性、実体性、偏心度が提案されている。
セマンティックレベルの属性では、顔、感情、触れる、注視などの重要な意味情報が議論され、これらの要素が視覚の注目に影響を与えることが説明されている。
主な貢献
1.ピクセル、物体、意味(セマンティック)の3層での顕著性モデルの提案
2.視線追跡データの700枚のデータセットを構築、提供
データセットと検証方法
視覚的な注目に関連する要因や、新しいOSIEデータセットの概要が説明されている。データセットは、視線追跡データ、セグメンテーション、および意味属性の評価に基づくもので、視線の注視を引き起こす異なるオブジェクトやセマンティック属性の統計的分析が可能である。また、他のデータセットとの比較や実験手順についても述べられている。
被験者に画像を自由に見るよう指示し、視線パターンに関する統計と分析を行いました。実験結果から、被験者の視線は画像の中央に偏っており、他のデータセットと比較してもその傾向が小さいことが示された。また、画像のエントロピーを測定し、このデータセットが異なる種類の対象に注意を引きやすいことが明らかになった。
この研究では、物体の定量的分析が紹介され、特に細かい輪郭を使用したオブジェクトのセグメンテーションが強調されている。また、セマンティックアトリビュートに基づいた物体への注視の分布とその結果が示され、特に顔に対する注視が多いことが強調されている。被験者によるセグメンテーションとラベリングが行われ、その結果が統計的な分析と実験結果として報告されている。注目の「物体中心のバイアス」に焦点を当て、物体と意味の属性と結びついていることが述べられている。提案された意味の属性の統計的分析が行われ、それぞれの妥当性が定量的に示されている。
提案モデル
最後に、計算モデルを構築し、異なる属性の組み合わせと比較して視線の予測を行い、他の最近の注目モデルとも比較する。まずベースとなる分類モデルはSVMである。画像の注目領域を決定するために、MITモデルと同様に、複数の主題によって指定された注目領域を重視し、少ない注視が発生する画像の大部分を背景として残す方法が採用される。1:3のサンプリング比率を選択する目的は、同じ画像内の正と負のサンプルピクセルの分布をバランスさせることであり、学習サンプルは平均がゼロで分散が1になるように正規化される。
線形SVMが各ピクセル、オブジェクト、および意味レベルの属性の重みを学習するために使用され、特に視覚情報の神経過程メカニズムに基づくものです。Faceとtextが他の属性を圧倒し、その後にgazedとtasteが続く。モデルは、他のモデルよりも優れた視覚注視の予測性能を示し、特に物体の意味情報が重要であることが明らかになった。
提案された方法は、異なる属性が視覚注視に異なる寄与をすることを示し、これを考慮すると注視予測が向上する。
定量的な評価では、提案されたモデルは他のモデルよりも優れた性能を示し、視線データから学習された重みがより正確な予測に導くことが示す。
提案された三層構造の視覚顕著性モデルは、物体および意味レベルの情報を明示的かつ主導的にモデリングし、視線配分の機構を理解する。
提案モデルは、視覚データセットとして700枚の画像と15人の視線データを提供し、物体および意味の情報が人間の視線を予測する重要性を実証した。
これにより、制限された数のオブジェクト検出器を追加する現行の問題を克服した。
所感
ピクセルレベル(ボトムアップ)と物体、セマンティックレベル(トップダウン)に分けて考慮している。論文中にも言及されている通り、高精度な注視点を抽出するためにはボトムアップだけでなくトップダウンを同時に考慮する必要があるのだろう。