まとめ
注視マップの算出方法を中心として、人間がどこに着目するかについての静止画または動画を対象とした研究事例を見てきた.
色や強度、向きなどの理論ベースの手法から最近のディープラーニングベースの手法へと変遷してきているが、いまだに算出された顕著性マップと人間が実際に注目する部分との違いが見受けられるようだ.
要するに未解決問題といってもよいテーマである.
EyeTrackingによる正解データは実験的に得られるデータであり、
コンテキストベース(内容を知っている人が注目する部分)とオブジェクトベース(物体の特徴によって人目を引く部分)が厳密に分離しにくい。
そのため、どの測度(評価指標)を用いるべきかがはっきりしないこともこの問題を難しくしている理由の一つと思われる。
やはり、こういった心理的な要因も含む、理論化しにくい問題にはディープラーニングで力業で解くことが適しているのかもしれないが、その場合は適切なデータセットの構築が問題になりそう。
顕著性マップ導出も、GPTやGeminiなど画像、動画なども学習した大規模基盤モデルをベースに目的に応じてファインチューンという既定路線になっていくのかもしれない。
特に重要そうな論文
SToA
・State-of-the-Art in Visual Attention Modeling(2013)
・Review of Visual Saliency Prediction: Development Process from Neurobiological Basis to Deep Models(2022)
基本理論(非ディープラーニング)
・A Model of Saliency-based Visual Attention for Rapid Scene Analysis(1998)
・Learning to Predict Where Humans Look(2009)
ディープラーニング(transformer)
・Predicting Human Attention using Computational Attention(2023)
測度
・What do different evaluation metrics tell us about saliency models?(2017)
データセット
・Dataset and metrics for predicting local visible differences(2017)
今回見ていない、今後見るべき論文
・脳機能イメージングの計算論モデルとしての深層学習(2023) → 日本語のコンパクトなレビュー論文
・Eye Tracking in the Wild: The Good, the Bad and the Ugly(2015) → アイトラッキングについて
・Sketch2Saliency: Learning to Detect Salient Objects from Human Drawings(2023) → スケッチから顕著性を学習
所感
注視マップに関した研究について五月雨に見てきた.
浅く読んだだけだが、それでも良い勉強機会になった.
今回の一番の収穫は学んだ内容というよりも、AI要約が非常に便利であるとわかったことかもしれない.
学生の頃は重要そうな論文に絞って時間をかけて頑張って読んでいたが、AI翻訳だけでなくこのような要約サービスも用いればかなり効率的にサーベイすることが出来る.
AIベースなので間違いも多く含むが,概要をつかむには十分使えそうだ.
使用した要約サービス(chatPDFが良かったです)