8
5

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

Learning Spatiotemporal Features with 3D Convolutional Networksを読んだ

Last updated at Posted at 2018-04-16

Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, Manohar Paluri, Learning Spatiotemporal Features with 3D Convolutional Networks, ICCV2015, pp. 4489-4497, 2015.

1.どんなもの?

3次元畳み込みネットワーク(3D ConvNets)を使用して時空間特徴学習のための簡単で効果的なアプローチを提案

2.先行研究と比べてどこがすごいか

  • 3DConvNetsは2DConvNetsと比較して時空間特徴学習に適していること
  • 4つの異なるデータセットで最先端の手法より優れていること

スクリーンショット 2018-04-15 17.17.54.png
https://arxiv.org/pdf/1412.0767.pdf

3.技術や手法のキモはどこにある?

  • フルビデオフレームを入力として受け取るので,前処理に依存しないことで大規模なデータセットに対して簡単にスケーリングできること
  • 2DConvNetsは畳み込みの直後に時間的情報を失うのに対して3DConvNetsは時間的情報を保存できる
  • VGGNetの知見によりカーネルサイズをkx3x3に固定し,3次元畳み込みカーネルの時間的な深さを変化させ,最適なものを探索

探索方法

  • 探索にUCF101データセットを使用
  • 全てのビデオフレームを128x171にリサイズ
  • オーバーラップしていない16フレームのクリップに分割して使用
  • 入力サイズが3×16×128×171なのに対して,トレーニングには3x16x112x112になるように画像をランダムクロップする(C3Dモデルは後述)
  • 探索結果→カーネルサイズ3x3x3が一番いいことがわかった

C3Dモデル

スクリーンショット 2018-04-16 21.19.14.png
https://arxiv.org/pdf/1412.0767.pdf

  • 畳み込み層のカーネルサイズは3x3x3のストライド1x1x1を持ち,pooling層は第一層を除きカーネルサイズ2x2x2のストライド2x2x2を持つ.第一層は時間情報が早くに併合しないようにカーネルサイズ1x2x2のストライド1x2x2になっている.
  • kerasでの実装→https://github.com/axon-research/c3d-keras

4.有効性の検証

Sports-1MデータセットとUCF101で検証を行い,slow Fusionなどと比較している.

5.議論はあるか?

#6.次に読むべき論文はあるか?

7.使えそうなノウハウ

→オーバーラップしていない16フレームのクリップに分割して使用
1動画から訓練データをたくさん作れそう

8
5
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
8
5

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?