Learning to Predict Where Humans Look(Judd, 2009)
ICCV2009にてMITの研究者が発表.被参照数が多い論文.本研究にて構築されたアイトラッキングデータのデータベースが公開されている.
概要
この論文は、グラフィックス、デザイン、および人間とコンピュータの相互作用において、人間がどこを見るかを理解することが重要であることを述べています。アイトラッキングデバイスが使用できない場合、引き立てのモデルを使用して視線の予測を行うことができます。しかし、従来の顕著性モデルは、ボトムアップの計算に基づいており、トップダウンの画像意味論を考慮していないため、実際の人間の視線追跡データと一致しないことが多いという問題があります。この論文では、著者らが1003枚の画像にわたる15人の異なるユーザーからのアイトラッキングデータベースを提供し、ボトムアップの計算とトップダウンの画像意味論の両方を考慮した教師付き学習モデルを提案しています。このモデルは、低レベル、中間レベル、高レベルの画像特徴と線形サポートベクターマシンを使用してトレーニングされています。著者らは、異なる特徴で作成された顕著性モデルのパフォーマンスを比較し、すべての特徴を組み合わせることで最も優れたモデルが得られることを示しています。この論文は、視覚的注意と人間の視線予測の分野において、将来の研究と開発に重要な示唆を与える、貴重な研究成果です。
この論文の貢献は?
この論文の主な貢献は2つある:1つ目は、1003枚の画像に渡る15人の異なるユーザーからのアイトラッキングデータの大規模なデータベースを提供することである。第二に、著者らは、ボトムアップの画像ベースの顕著性の手がかりとトップダウンの画像の意味依存の手がかりの両方を組み合わせた顕著性の教師あり学習モデルを提案する。このモデルは、低・中・高レベルの画像特徴量と線形サポートベクターマシンを用いて学習される。著者らは、異なる特徴量を用いて作成された顕著性モデルの性能を比較し、全ての特徴量を組み合わせることで最も性能の高いモデルが生成されることを示す。
アイトラッキングデータベース
「Database of eye tracking data」の章では、著者らが収集したアイトラッキングデータベースについて説明されています。このデータベースは、1003枚の画像に対する15人の被験者のアイトラッキングデータを含んでおり、自由視聴の状況での引き立て領域の予測に使用されます。
まず、著者らは、1003枚の画像をFlickr creative commonsとLabelMeからランダムに収集しました。これらの画像は、風景、建物、人物、動物、食べ物など、多様なカテゴリーに属しています。画像の長辺は1024ピクセルで、短辺は405〜1024ピクセルの範囲でした。被験者は、18歳から35歳までの男女で、2人の研究者と13人の一般被験者で構成されています。被験者は、19インチのコンピュータースクリーンから約2フィート離れた場所に座り、アイトラッキングデバイスを使用して画像を3秒間視聴しました。画像の視聴は、1秒間のグレー画面を挟んで行われ、500枚の画像を1回のセッションで視聴し、2回のセッションで合計1003枚の画像を視聴しました。
著者らは、アイトラッキングデータを収集するにあたって、高品質のトラッキング結果を得るためにカメラのキャリブレーションを50枚ごとにチェックしました。また、アイトラッキングデータベースは、視線の軌跡と顕著性領域のグラウンドトゥルースを提供するために使用されます。これらのデータは、顕著性領域の予測モデルのトレーニングに使用されます。
この章では、著者らが収集したアイトラッキングデータベースについて詳しく説明されています。また、このデータベースが、自由視聴の状況での顕著性領域の予測に使用されることが示されています。このデータベースは、視覚とグラフィックスのコミュニティでの知見を深めるために、広く公開されています。
このデータベースは、多くの応用に使用することができます。例えば、このデータベースを使用して、画像の注釈付けを自動化することができます。また、このデータベースを使用して、画像の検索エンジンの改善を行うことができます。さらに、このデータベースを使用して、人間の視覚システムの理解を深めることができます。
顕著性モデルの学習
「Learning a model of saliency」の章では、著者らが提案する教師付き学習モデルについて詳しく説明されています。このモデルは、低レベル、中レベル、高レベルの画像特徴を使用して、引き立て領域を予測することができます。
まず、低レベルの画像特徴として、色、輝度、および方向勾配を使用します。これらの特徴は、画像の基本的な視覚的特徴であり、画像の明るさ、色相、およびエッジの方向を表します。次に、中レベルの画像特徴として、エッジ、コントラスト、およびオブジェクトの境界線を使用します。これらの特徴は、画像の構造を表し、エッジの強度、コントラストの差、およびオブジェクトの形状を表します。最後に、高レベルの画像特徴として、オブジェクトの種類、およびオブジェクトの位置関係を使用します。
これらの画像特徴に対して、線形サポートベクターマシンを使用して顕著性領域を予測するモデルを学習します。このモデルは、アイトラッキングデータベースを使用してトレーニングされ、引き立て領域を正確に予測することができます。
この章では、著者らが提案する教師付き学習モデルの詳細について説明されています。また、異なる画像特徴を使用したモデルのパフォーマンスを比較し、すべての画像特徴を組み合わせたモデルが最も高いパフォーマンスを示すことが示されています。
このモデルは、顕著性領域を予測するために使用されるため、多くの応用があります。例えば、このモデルを使用して、画像の非写実的レンダリングを自動的に作成することができます。このレンダリングでは、ユーザーが注目した場所により詳細な情報を表示し、注目していない場所には詳細な情報を表示しないようにします。また、このモデルは、画像の自動注釈付けや、画像の検索エンジンの改善など、多くの応用に使用することができます。
視覚的注意を理解することは、グラフィック、デザイン、ヒューマンコンピュータインタラクションにおいて、どのような応用の可能性があるのだろうか?
グラフィックス、デザイン、および人間とコンピュータの相互作用において視覚的注意を理解することの潜在的な応用は多岐にわたります。例えば、自動画像クロッピング[16]、サムネイル作成、または画像検索に役立ちます。視線追跡装置が使用できない場合は、注視される場所を予測するために顕著性モデルを使用することができます。顕著性モデルは、位置の目立ちやすさ、または人間の観察者の注意を集める可能性を測定するために使用されます。
公開されているアイトラッキング・データは、視覚的注意と人間の視線予測の分野における今後の研究開発にとって、どのような意味を持つのだろうか?
公開されているアイトラッキングデータは、視覚的注意と人間の視線予測の分野における将来の研究と開発に重要な示唆を与えます。このデータベースは、大規模な定量的な分析を可能にし、異なる画像における視線の特性や傾向を理解するための貴重なリソースとなります。研究者は、このデータを使用して新しい引き立てモデルの開発や既存のモデルの改善を行うことができます。さらに、このデータは、機械学習やコンピュータビジョンの分野における新たな技術やアルゴリズムの開発にも貢献する可能性があります。
この論文の限界は?
この論文の限界は、以下のようにいくつか考えられます。
-
アイトラッキングデータの収集における制限:この研究では、15人の異なるユーザーからのアイトラッキングデータを収集しましたが、これは比較的小規模なサンプルサイズであるため、より多くのデータが必要である可能性があります。
-
画像の種類の制限:この研究では、自然画像に焦点を当てていますが、他の種類の画像(例えば、CG画像やアニメーションなど)に対する顕著性モデルのパフォーマンスについては議論されていません。
-
モデルの汎用性の制限:この研究で提案されたモデルは、特定の画像セットに対してトレーニングされています。したがって、このモデルが他の画像セットに対してどのように機能するかについては、さらなる研究が必要です。
-
トップダウンの画像意味論の制限:この研究では、トップダウンの画像意味論を考慮していますが、このアプローチにはいくつかの制限があります。例えば、画像の意味を正確に理解することは困難であり、また、異なる文化や背景を持つ人々にとって、同じ画像に対する意味は異なる場合があります。
所感
ディープラーニング隆盛以前の論文だが、非参照数が多い。アイトラッキングデータベースを提供したことと、機械学習モデルを用いたデータドリブンなアプローチが昨今の研究の先駆けとして参照されているのだろう。