More than 5 years have passed since last update.

Learning Spatiotemporal Features with 3D Convolutional Networksを読んだ

Python

Last updated at 2018-04-17Posted at 2018-04-16

Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, Manohar Paluri, Learning Spatiotemporal Features with 3D Convolutional Networks, ICCV2015, pp. 4489-4497, 2015.

ICCV 2015 open access,
PDF
arXive, PDF

1.どんなもの？

3次元畳み込みネットワーク（3D ConvNets）を使用して時空間特徴学習のための簡単で効果的なアプローチを提案

2.先行研究と比べてどこがすごいか

3DConvNetsは2DConvNetsと比較して時空間特徴学習に適していること
4つの異なるデータセットで最先端の手法より優れていること

https://arxiv.org/pdf/1412.0767.pdf

3.技術や手法のキモはどこにある？

フルビデオフレームを入力として受け取るので，前処理に依存しないことで大規模なデータセットに対して簡単にスケーリングできること
2DConvNetsは畳み込みの直後に時間的情報を失うのに対して3DConvNetsは時間的情報を保存できる
VGGNetの知見によりカーネルサイズをkx3x3に固定し，3次元畳み込みカーネルの時間的な深さを変化させ，最適なものを探索

探索方法

探索にUCF101データセットを使用
全てのビデオフレームを128x171にリサイズ
オーバーラップしていない16フレームのクリップに分割して使用
入力サイズが3×16×128×171なのに対して，トレーニングには3x16x112x112になるように画像をランダムクロップする(C3Dモデルは後述)
探索結果→カーネルサイズ3x3x3が一番いいことがわかった

C3Dモデル

https://arxiv.org/pdf/1412.0767.pdf

畳み込み層のカーネルサイズは3x3x3のストライド1x1x1を持ち，pooling層は第一層を除きカーネルサイズ2x2x2のストライド2x2x2を持つ．第一層は時間情報が早くに併合しないようにカーネルサイズ1x2x2のストライド1x2x2になっている．
kerasでの実装→https://github.com/axon-research/c3d-keras

4.有効性の検証

Sports-1MデータセットとUCF101で検証を行い，slow Fusionなどと比較している．

5.議論はあるか？

６.次に読むべき論文はあるか？

7.使えそうなノウハウ

→オーバーラップしていない16フレームのクリップに分割して使用
1動画から訓練データをたくさん作れそう

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up