Learning to Predict Sequences of Human Visual Fixations(Mingm 2016)
深層学習ではなく、マルコフ決定過程を用いた視覚注視モデル。SVMと比較して学習スピードは遅いが、精度が高いらしい。
概要
この論文では、人間の視線の時系列を予測する手法が提案されています。視覚注視モデルは、画像内の位置での視線の確率分布を推定しますが、このモデルは眼球注視の時系列を予測できません。著者らは、最小二乗方針繰り返し(LSPI)を使用して、人間の眼球追跡データから学習した視覚探索ポリシーを提案し、実験でLSPIが異なる時点での複数の手がかりを組み合わせて視覚探索を効果的に予測できることを示しています。学習されたパラメータは、視覚探索の異なる段階での手がかりの重要性を捉え、結果は2つの難解なデータセットで最先端の性能を達成しています。
この論文では、ヒトの視線移動をマルコフ決定過程(MDP)としてモデル化する方法が提案されています。報酬関数と遷移確率を事前に指定せず、LSPIアルゴリズムを用いてポリシーを学習し、視線予測のための最適なポリシーを得る手法が紹介されています。この手法は視線軌跡のトレーニングデータから報酬を評価し、MDPを通じて期待される報酬を最大化するポリシーを獲得します。
視線追跡を使用して人間の視線動きをモデル化し、MDPを介して人間の視覚的注意を表現する方法に焦点を当てています。視線データセット(OSIEおよびMIT)でアルゴリズムをテストし、視線予測の評価にはBorjiet al.の手法を使用しています。独自の状態行動マッピングφ′(s,a)を紹介し、視線の順序を考慮して異なるステージごとにパラメータを学習する方法を示しています。
また、視線予測の基本表現としてピクセルではなくスーパーピクセルの使用が提案されています。スーパーピクセルは、画像を小さなセグメントに分割し、通常は均質な色やテクスチャを持っています。また、低レベルの特徴から意味論まで、さまざまな特徴を使用し、特に視線と物体の中心領域の強い相関が強調されています。実験では、OSIEデータセットとMITデータセットでの結果が報告され、提案手法が他のベースラインや最先端の手法と比較して有効であることが示されています。
学習アルゴリズムLSPIにおいて、視線データセットOSIEにおける収束の進展と報酬の統計が示され、学習の最終段階での課題が強調されます。また、学習パラメーターの解析では、視線の方向に対する重みが時間の経過とともに変化し、セマンティクスと低レベルの特徴が注目されることが明らかにされています。LSPIは他のモデルと比較しても優れたパフォーマンスを示し、γ値の調整が不確実性に対処する上で重要であることが示唆されています。
この研究では、LSPIがMITデータセットで他のモデルを上回り、セマンティクスと中央の手がかりが予測性能に重要であることが示されました。さらに、LSPIは時間的情報を考慮し、SVMよりも優れたスキャンパスの予測性能を発揮します。研究者はLSPIが視覚注視の予測において優れており、低レベルの特徴を初期の段階で有効に活用できると結論づけました。
この論文では、LSPIを使用して人間の視線の順序を予測するモデルが紹介され、視覚探索の異なる段階を考慮することで、他の手法よりも優れた予測性能が得られることが実験結果から示されました。また、LSPIモデルは多くの異なる物体をカバーする優れたスキャンパスを生成し、他の手法よりも高い性能を示しています。計算コストの面では、LSPIの学習が時間がかかる一方で、SVMベースラインは低い計算コストでモデルを学習できることが示されています。