0
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors ざっくりまとめ

Posted at

行動認識におけるTDDの概要をまとめておきます。
詳しくは論文を参照ください。
あくまで自分用なので悪しからず...
#1.TDDとはどのようなものか?
行動認識の主な手法は

  1. 人の手で作られた特徴量(HOG,HOF,MBH)を用いて分類する方法
  2. Deep-learningのConvolution-Netで特徴マップを求めて分類する方法
    の二つがありました。
    TDDはこの二つの手法を組み合わせた特徴量で、これを用いることで認識率を向上させました。

#2.モチベーション
スクリーンショット 2019-07-30 17.33.59.png

TDDが考案された背景として上記の二つの特徴量のメリットとデメリットを考えます。
###人の手で作られた特徴量(図の上)

  • 時間的情報を考慮されている。
  • 様々なスピードの動きに対して効果的である。
  • visualに対して最適化された特徴量ではないため判別能力が下がっているかもしれない。

###Convolution-Netで得られた特徴マップ(図の下)

  • 使用可能なデータセットのデータ量が少ないのに対して学習(two-stream-net)には多くのデータ量が必要であるため人の手で作られた特徴量より認識率が低かった。
  • 時間情報と空間情報の違いを無視し、空間情報だけを考慮している。

以上を踏まえて、時間情報と空間情報をリンクさせた特徴量を考えたらうまくいくのではないかと考えられたわけです。

#3.TDDの計算方法
スクリーンショット 2019-08-06 18.26.52.png

$$D(T_k,\widetilde{C}^{a}_m)=\sum_{p=1}^P\widetilde{C}^{a}_m(\overline{(r_m×x^{k}_p)},\overline{(r_m×y^{k}_p)},z^{k}_p)$$

$\widetilde{C}^{a}_m$はconvolution-netで得られた特徴マップでaには空間情報か時間情報かを表す記号が入ります。また、mはm層目の特徴マップということを表しています。
$T_k$はk個目のdense-opticalflowで$T_k={(x^{k}_1,y^{k}_1,z^{k}_1),(x^{k}_2,y^{k}_2,z^{k}_2),\cdots,(x^{k}_P,y^{k}_P,z^{k}_P)}$のように軌跡の座標が入っています。
$\overline{(r_m×x^{k}_p)}$のところの$r_m$は$\frac{1}{2^m}$が入ります。これはconvnetにおいて層が1層進むごとに特徴マップ大きさが$\frac{1}{2}$倍されているためです。
ざっくりこの式が何をしているかというとdense-opticalflowで動きの特徴点の座標を求め、特徴マップにおいてその座標の値を参照しています。

#4.実験結果
スクリーンショット 2019-08-06 17.59.48.png

認識率が上がってますね。

0
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?