More than 3 years have passed since last update.

Recognition of activities of daily living from egocentric videos using hands detected by a deep convolutional network

Last updated at 2021-06-04Posted at 2021-06-02

abstract

訓練時
- 各動画を特徴ベクトルに変換
- k-meansで行動クラスそれぞれについて代表ベクトルを生成
- 生成した代表ベクトルをマージする（Bug of Visual Wordsが生成される)
- 全ての動画の各フレームから特徴ベクトルを抽出
- 行動クラスごとに，抽出した特徴ベクトルがVisual Wordsのどの要素(クラス)に近いかを探し，投票のようなこと(+1)をする
- 結果として，行動クラスごとにkey-feature-sequenceができる
  - 例えば全てのクラスが全く違う行動であれば，[0,0,0,N,0,0]のようなベクトルになる
  - 似ている行動クラスがあれば，[0,0,0,3N/4,N/4,0]のようなベクトルになる
推論時
- 各フレームから特徴ベクトルを抽出
- 各フレームの特徴ベクトルについて，訓練時に生成されたVisual Wordsのどの要素に近いかを探し，投票のようなことをする
- 生成されたkey-feature-sequenceがどのkey-feature-sequenceと近いかで分類する
  - 近さを判断するのにDTW(Dynamic Time Warping)を使用