Predicting Goal-directed Human Attention Using Inverse Reinforcement Learning(Zhibo, 2020)
概要
この論文では、逆強化学習(IRL)モデルを提案し、視覚的検索中の人間の注視行動を予測します。モデルは内部報酬関数とポリシーを学習し、目標指向の行動の効果的な予測を行います。提案されたIRLモデルはCOCO-Search18データセットでのトレーニングと評価において、人間の検索行動に対する類似性や検索効率の観点でベースラインモデルを上回りました。
モデルではGeneratorは画像とタスクから目の動きをサンプリングして偽の状態-アクションペア{Bft, aft}を生成し、Discriminator(報酬関数)は本物の人間の状態-アクションペア{Brt, art}と区別し、Generatorを訓練する報酬を提供します。エージェントは画像内の特定の場所に焦点を合わせ、視線を変えることで内部の報酬を最大化し、DCB(Dynamic-Contextual-Belief)を使用して視覚的な情報を蓄積します。DCBは、高解像度の焦点領域、コンテキストの信念、およびダイナミクスから構成され、エージェントの進化する状態表現をモデリングします。
論文では、信念が視覚標的を探索する際の注視の選択に影響を与える可能性があり、動的な状態表現の変化について提案されています。提案されたヒューリスティックは、低解像度画像の周辺視覚入力に対応するコンテキスト信念に基づいて、探索者の各注視ごとに状態を更新します。報酬とポリシー学習にはGenerative Adversarial Imitation Learning(GAIL)が使用され、ディスクリミネーターとジェネレーターを備えた敵対的なフレームワークでビジュアルサーチ行動の報酬関数とポリシーを学習します。
なお、COCO-Search18データセットは、18のターゲットオブジェクトカテゴリーに対する10人の被験者の視線移動を記録した大規模で高品質なデータセットです。
10人の被験者が18のカテゴリを探索する実験で、ゲームパッドを使用してカテゴリごとに画像を判断。提案されたフレームワークとその構成要素を異なる実験で評価し、スキャンパスの予測モデルを比較。ヒトの検索誘導をIRLモデルが最も良く再現し、モデルの性能はヒトよりも低い。
まざまな予測手法と人間の検索者による対象注視の累積確率が比較され、IRLアルゴリズムが全ての指標で優れていることが示されています。また、IRLモデルの報酬マップは検索対象のカテゴリに依存し、異なるカテゴリで異なる注視が期待されることが強調されています。実装の詳細に関しては、320×512の入力画像を使用し、Panoptic-FPNや畳み込みニューラルネットワークなどが利用されています。
Leave-one-subject-out実験では、IRLモデルが新しい検索者の注視パスを効果的に予測できることが示されています。
IRLモデルは、COCO-Search18テストデータセットでスキャンパス予測アルゴリズムを比較。グループモデルと個別モデルの性能差は無視できず、コンテキスト効果と方向優先性も検討された。また、特定の物体が検索効率に与える影響が調査され、フォークはナイフの検索に影響を与えるが、ケーキは助けになることが示唆された(?)。
提案されたモデルは、視覚的検索の際の人間の注視動作を予測するための新しいモデルであり、動的なコンテキスト信念(DCB)と呼ばれる独自の状態表現を使用しています。実験では、提案モデルが人間の注視動作を他のモデルよりも優れて予測し、データ効率が向上していることが示されています。この研究は、ロボットの検索アプリケーションや人間とコンピュータシステムの相互作用の向上に寄与する可能性があります。
この文書は、機械学習、視覚注意、および視線追跡に関する多数の研究論文を引用しています。これらの論文は、逆強化学習、深層ニューラルネットワーク、視線追跡の方法、ビジュアルアテンションモデリングなどに焦点を当てています。
与視線予測に関する論文では、異なるモデルや手法に焦点を当てています。異なるアプローチに基づく視線予測の研究が提示され、深層学習や画像特徴に関する重要な成果が述べられています。
所感
これまで見てきた論文とはちょっと毛色が異なるのか、全体的によくわからない。
逆強化学習というものを使っていることが肝なのはわかるが…