Learning Spatiotemporal Features with 3D Convolutional Networksを読んだ

Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, Manohar Paluri, Learning Spatiotemporal Features with 3D Convolutional Networks, ICCV2015, pp. 4489-4497, 2015.

1.どんなもの?

3次元畳み込みネットワーク(3D ConvNets)を使用して時空間特徴学習のための簡単で効果的なアプローチを提案

2.先行研究と比べてどこがすごいか

  • 3DConvNetsは2DConvNetsと比較して時空間特徴学習に適していること
  • 4つの異なるデータセットで最先端の手法より優れていること

スクリーンショット 2018-04-15 17.17.54.png
https://arxiv.org/pdf/1412.0767.pdf

3.技術や手法のキモはどこにある?

  • フルビデオフレームを入力として受け取るので,前処理に依存しないことで大規模なデータセットに対して簡単にスケーリングできること
  • 2DConvNetsは畳み込みの直後に時間的情報を失うのに対して3DConvNetsは時間的情報を保存できる
  • VGGNetの知見によりカーネルサイズをkx3x3に固定し,3次元畳み込みカーネルの時間的な深さを変化させ,最適なものを探索

探索方法

  • 探索にUCF101データセットを使用
  • 全てのビデオフレームを128x171にリサイズ
  • オーバーラップしていない16フレームのクリップに分割して使用
  • 入力サイズが3×16×128×171なのに対して,トレーニングには3x16x112x112になるように画像をランダムクロップする(C3Dモデルは後述)
  • 探索結果→カーネルサイズ3x3x3が一番いいことがわかった

C3Dモデル

スクリーンショット 2018-04-16 21.19.14.png
https://arxiv.org/pdf/1412.0767.pdf

  • 畳み込み層のカーネルサイズは3x3x3のストライド1x1x1を持ち,pooling層は第一層を除きカーネルサイズ2x2x2のストライド2x2x2を持つ.第一層は時間情報が早くに併合しないようにカーネルサイズ1x2x2のストライド1x2x2になっている.
  • kerasでの実装→https://github.com/axon-research/c3d-keras

4.有効性の検証

Sports-1MデータセットとUCF101で検証を行い,slow Fusionなどと比較している.

5.議論はあるか?

6.次に読むべき論文はあるか?

7.使えそうなノウハウ

→オーバーラップしていない16フレームのクリップに分割して使用
1動画から訓練データをたくさん作れそう

Sign up for free and join this conversation.
Sign Up
If you already have a Qiita account log in.