雑読み
https://eprints.kingston.ac.uk/id/eprint/40873/1/Nguyen-T-H-C-40873-AAM-1.pdf
2018年投稿
abstract
- 手と物体の相互作用をモデル化,ただし,物体のGTのアノテーションが使える前提
- 一人称行動認識の精度が向上
method
-
訓練時
- 各動画を特徴ベクトルに変換
- k-meansで行動クラスそれぞれについて代表ベクトルを生成
- 生成した代表ベクトルをマージする(Bug of Visual Wordsが生成される)
- 全ての動画の各フレームから特徴ベクトルを抽出
- 行動クラスごとに,抽出した特徴ベクトルがVisual Wordsのどの要素(クラス)に近いかを探し,投票のようなこと(+1)をする
- 結果として,行動クラスごとにkey-feature-sequenceができる
- 例えば全てのクラスが全く違う行動であれば,[0,0,0,N,0,0]のようなベクトルになる
- 似ている行動クラスがあれば,[0,0,0,3N/4,N/4,0]のようなベクトルになる
-
推論時
- 各フレームから特徴ベクトルを抽出
- 各フレームの特徴ベクトルについて,訓練時に生成されたVisual Wordsのどの要素に近いかを探し,投票のようなことをする
- 生成されたkey-feature-sequenceがどのkey-feature-sequenceと近いかで分類する
- 近さを判断するのにDTW(Dynamic Time Warping)を使用
Experiment
- 左右の手の距離をd1, 手と行動に関連する物体との距離をd2,d3とする.
- 物体のGTのBBは使えるという前提あり
- 訓練時に各フレームから特徴ベクトルを抽出するときに,フレームからの特徴量,d1,d2,d3の使用の有無で実験
- フレームからの特徴量は行動に関連する物体の特徴量かも