A Model of Saliency-based Visual Attention for Rapid Scene Analysis(Christof, 1998)
古いが引用数が多く、おそらくこの分野でかなり重要と思われる論文.
ニューラルネットのアプローチを応用して画像上の注目点を求めるモデルを提案.
(近年のディープラーニングを応用したモデルの始祖?)
この研究では複雑なシーンを素早く解析するために、人間の視覚システムがどのように注視を行うかを模倣することを目指している.
人間の"注意の焦点"(focus of attnetion)は以下の2つの方法で決まる.
1、高速でボトムアップな顕著性主導のタスクに依存しない方法(周囲と比べて目立つ部分)
2.低速でトップダウンの意思に制御された、タスクに依存する方法(自分が注目したい部分)
この2つでシーンを走査している.
Attention モデルには上記トップダウン、ボトムアップの両方の制御に基づいた"動的ルーティング"というモデルがあるが、この研究では"特徴統合理論"(feature integrated theory)を基にする.画像を幾つかのトポロジカル特徴マップ(topological feature map)の集合に分解し、それぞれの顕著性(saliency)(周囲に比べてどのくらい目立つか)を求め、最終的に1枚に統合された顕著性マップを求める.
具体的には図のようにカラー、強度、向きに分解し、顕著性マップを求める.
論文内 図1
また,各マップには正規化ステップも含まれている(これが論文のコントリビュートの1つ?)
論文内 図2
提案手法であればノイズが含まれているような画像でも最もらしい顕著性マップを求めることが出来ている.
論文内 図4
所感
1998年の時点ですでにニューラルネットを用いたアプローチをとっていることが興味深い.
機械学習は専門ではないが、"ニューラルネットの考え方自体は昔からありGPUなどマシンスペックの向上により高度なものが実用的になった"というよく聞く話が本当なんだなと実感.
引用数が多いのも納得で、もう少し時間をとって読み込みたい