More than 5 years have passed since last update.

Quo Vadis, Action Recognition? A New Model and the Kinetics Datasetを読んだ

Last updated at 2018-04-22Posted at 2018-04-22

1.どんなもの？

UCF101やHMDB51動画データセットではデータ数が少ないので,優れたビデオアーキテクチャを特定するのは困難
データ数が多いKinetics動画データセットで最先端のアーキテクチャを再評価(KineticsでpretrainingしてUCF101やHMDB51の精度をみる)
再評価したアーキテクチャと提案手法であるTwo-Stream Inflated 3DConvNetとの比較検証

2.先行研究と比べてどこがすごいの？

Inception、VGG-16、ResNetのような画像分類ネットワークを時空間特徴抽出器に膨らませたこと．
以前の3DConvNetはパラメータの高次元化とラベル付きビデオデータの欠如のために、最大でも8層だった．

3.技術や手法のキモはどこにあるか？

2DConvNetを3Dに拡張させる

2Dアーキテクチャの畳み込みとプーリングのカーネルサイズを時間方向も考慮．NxNのカーネルはNxNxNになる．

2DConvNetで学習したフィルタの重みを3DConvNetに拡張させる

画像を複数コピーして静止画のような動画を作る
動画上のpoolingの活性化関数は、元の単一画像入力と同じでなければならない．
2Dの重みを時間次元に沿ってN回繰り返し、Nで割ることによって達成できる．

Inception-v1ベースの3DCNN

依然としてtwo-streamの手法は有効であるため，この論文に従った方法 https://arxiv.org/pdf/1604.06573.pdf でInception-v1を適用して実験を行った

4.どうやって有効だと検証した？

(a)~(d)と提案手法の(e)を比較
3D-ConvNetを除き，基本ネットワークとしてImageNet pretrained-v1を使用


http://openaccess.thecvf.com/content_cvpr_2017/papers/Carreira_Quo_Vadis_Action_CVPR_2017_paper.pdf

5.議論はあるか？

６.次に読むべき論文はあるか？

Learning Spatio-Temporal Features with 3D Residual Networks for Action Recognition (https://arxiv.org/pdf/1708.07632.pdf)

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up