Improving saliency models’ predictions of the next fixation with humans’intrinsic cost of gaze shifts(Florian, 2023)
概要
この論文では、人間の視線予測におけるギャップを減らすために、視線移動の人間の本質的なコストで、顕著性モデルの次の固視の予測を改善するアルゴリズムを提案します。次の視線ターゲットを予測するための原理的なフレームワークと、視線スイッチにかかる人間のコストの経験的な測定を用いて、どのように顕著性モデルの予測を改善するかについて説明しています。
主な貢献
この論文の主な貢献は以下の3つです。
1. 人間の視線移動の内在的コストを測定し、それを用いて静的なサリエンシーマップを改善する手法を提案したこと。
2. サリエンシーマップを用いて、次の視線移動を予測するための統計的意思決定理論の枠組みを提供したこと。
3. 予測精度を評価するために、新しい評価指標であるAUCを導入したこと。
1つ目の貢献について、人間の視線移動の内在的コストを測定することで、静的なサリエンシーマップを改善することができました。これにより、従来のサリエンシーマップよりも高い予測精度を達成することができました。
2つ目の貢献について、統計的意思決定理論の枠組みを提供することで、次の視線移動を予測するための理論的な基盤を提供しました。これにより、より正確な予測が可能になりました。
3つ目の貢献について、新しい評価指標であるAUCを導入することで、従来の評価指標に比べてより正確な予測精度を評価することができました。これにより、より正確な予測モデルの開発が可能になりました。
アルゴリズムで次の注視目標を予測するために使用される理論的枠組みとは?
このアルゴリズムで次の注視目標を予測するために使用される理論的枠組みは、統計的決定理論とマルコフ決定過程(MDP)に基づいている。このアルゴリズムは、スキャンパスを、MDPを用いて記述することができる報酬駆動型の行動シーケンスのシーケンスとして捉える。このアルゴリズムは、価値マップを用いて、価値マップに基づく方針から将来の固視位置を予測する。価値マップは、任意の顕著性モデルによって提供される顕著性マップ、視線移動の大きさと方向における嗜好を定量化する最近測定された人間のコスト関数、および後続の視線移動ごとに変化する逐次探索ボーナスに基づいて計算される。アルゴリズムは、最適な1ステップ先読み行動、すなわち、後続の1回の視線移動に対する報酬を最大化する行動を選択する。近似値マップは、画像、最後の固視の位置、過去の固視のシーケンス全体に依存する。アルゴリズムは値マップに基づいて、次に最も可能性の高い固視を予測する。
画像の内容とは無関係に、視線スイッチの人的コストはどのように測定されるのか?
視線スイッチにかかる人間のコストは、画像内容とは無関係に、人間の心理物理学的実験によって測定される。この実験では、参加者は画面中央に固定十字を提示され、その後に8つの可能な位置のいずれかに現れる周辺目標を提示された。参加者は、視線をできるだけ速く正確にターゲットに移動するよう指示された。この実験では、視線移動のコストを大きさと方向の両面から測定した。視線移動のコストの大きさは、参加者が視線をターゲットに移動させるのに要した時間によって測定され、視線移動のコストの方向は、サッケードの終点のターゲットからのずれによって測定された。この実験は、画像の内容とは無関係に、視線移動の本質的なコストを測定するためにデザインされたもので、周辺視標の検出以上の視覚処理を伴わない単純な課題を用いた。その結果得られたコスト関数は、任意の顕著性マップと先行する固視のシーケンスが与えられた人間の観察者の次の固視の予測を改善するアルゴリズムに用いられた。
アルゴリズムはどのような静的顕著性マップにも適用できますか、それとも特定の要件がありますか?
このアルゴリズムは、どのような静的な顕著性マップにも適用することができ、その起源や、顕著性を計算するために使用する特徴に関係なく。このアルゴリズムは、任意の静的な顕著性マップを、各視線移動後に再計算される、一連の動的な履歴依存の値マップに変換するように設計されている。値マップは、任意の顕著性モデルによって提供される顕著性マップ、視線移動の大きさと方向の嗜好を定量化する最近測定された人間のコスト関数、および後続の視線移動ごとに変化する逐次探索ボーナスに基づく。このアルゴリズムは柔軟で、入力として静的な顕著性マップを提供する限り、任意の顕著性モデルに適用できる。アルゴリズムは、顕著性マップの特定の特徴や特性を必要とせず、特定のデータセットや画像タイプに限定されない。従って、このアルゴリズムは様々な顕著性モデルに適用することができ、どのような画像に対しても次の視線ターゲットの予測を改善するために使用することができる。
提案手法の限界と今後の課題
この論文の提案手法にはいくつかの限界があります。まず、提案手法は静的なサリエンシーマップを用いて次の視線移動を予測するため、動的なシーンには適用できない可能性があります。また、提案手法は人間の視線移動の内在的コストを考慮しているため、人間の視線移動に対する個人差や文化的な違いを反映することができません。
さらに、提案手法はサリエンシーマップを用いて次の視線移動を予測するため、サリエンシーマップ自体の精度に依存することがあります。つまり、サリエンシーマップが不正確であれば、提案手法の予測精度も低下する可能性があります。
今後の課題としては、より動的なシーンに対応できる手法の開発が求められます。また、人間の視線移動に対する個人差や文化的な違いを反映する手法の開発も重要です。さらに、サリエンシーマップ自体の精度を向上させるための手法の開発も必要です。これらの課題を解決することで、より正確な視線予測モデルの開発が可能になります。
所感
視線を動かすコストを考慮するという発想が面白い。(おそらくディープラーニングベースではなさそうなので)応用範囲も広そうな気もする。