行動認識におけるTDDの概要をまとめておきます。
詳しくは論文を参照ください。
あくまで自分用なので悪しからず...
#1.TDDとはどのようなものか?
行動認識の主な手法は
- 人の手で作られた特徴量(HOG,HOF,MBH)を用いて分類する方法
- Deep-learningのConvolution-Netで特徴マップを求めて分類する方法
の二つがありました。
TDDはこの二つの手法を組み合わせた特徴量で、これを用いることで認識率を向上させました。
TDDが考案された背景として上記の二つの特徴量のメリットとデメリットを考えます。
###人の手で作られた特徴量(図の上)
- 時間的情報を考慮されている。
- 様々なスピードの動きに対して効果的である。
- visualに対して最適化された特徴量ではないため判別能力が下がっているかもしれない。
###Convolution-Netで得られた特徴マップ(図の下)
- 使用可能なデータセットのデータ量が少ないのに対して学習(two-stream-net)には多くのデータ量が必要であるため人の手で作られた特徴量より認識率が低かった。
- 時間情報と空間情報の違いを無視し、空間情報だけを考慮している。
以上を踏まえて、時間情報と空間情報をリンクさせた特徴量を考えたらうまくいくのではないかと考えられたわけです。
$$D(T_k,\widetilde{C}^{a}_m)=\sum_{p=1}^P\widetilde{C}^{a}_m(\overline{(r_m×x^{k}_p)},\overline{(r_m×y^{k}_p)},z^{k}_p)$$
$\widetilde{C}^{a}_m$はconvolution-netで得られた特徴マップでaには空間情報か時間情報かを表す記号が入ります。また、mはm層目の特徴マップということを表しています。
$T_k$はk個目のdense-opticalflowで$T_k={(x^{k}_1,y^{k}_1,z^{k}_1),(x^{k}_2,y^{k}_2,z^{k}_2),\cdots,(x^{k}_P,y^{k}_P,z^{k}_P)}$のように軌跡の座標が入っています。
$\overline{(r_m×x^{k}_p)}$のところの$r_m$は$\frac{1}{2^m}$が入ります。これはconvnetにおいて層が1層進むごとに特徴マップ大きさが$\frac{1}{2}$倍されているためです。
ざっくりこの式が何をしているかというとdense-opticalflowで動きの特徴点の座標を求め、特徴マップにおいてその座標の値を参照しています。
認識率が上がってますね。