Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, Manohar Paluri, Learning Spatiotemporal Features with 3D Convolutional Networks, ICCV2015, pp. 4489-4497, 2015.
1.どんなもの?
3次元畳み込みネットワーク(3D ConvNets)を使用して時空間特徴学習のための簡単で効果的なアプローチを提案
2.先行研究と比べてどこがすごいか
- 3DConvNetsは2DConvNetsと比較して時空間特徴学習に適していること
- 4つの異なるデータセットで最先端の手法より優れていること
https://arxiv.org/pdf/1412.0767.pdf
3.技術や手法のキモはどこにある?
- フルビデオフレームを入力として受け取るので,前処理に依存しないことで大規模なデータセットに対して簡単にスケーリングできること
- 2DConvNetsは畳み込みの直後に時間的情報を失うのに対して3DConvNetsは時間的情報を保存できる
- VGGNetの知見によりカーネルサイズをkx3x3に固定し,3次元畳み込みカーネルの時間的な深さを変化させ,最適なものを探索
探索方法
- 探索にUCF101データセットを使用
- 全てのビデオフレームを128x171にリサイズ
- オーバーラップしていない16フレームのクリップに分割して使用
- 入力サイズが3×16×128×171なのに対して,トレーニングには3x16x112x112になるように画像をランダムクロップする(C3Dモデルは後述)
- 探索結果→カーネルサイズ3x3x3が一番いいことがわかった
C3Dモデル
https://arxiv.org/pdf/1412.0767.pdf
- 畳み込み層のカーネルサイズは3x3x3のストライド1x1x1を持ち,pooling層は第一層を除きカーネルサイズ2x2x2のストライド2x2x2を持つ.第一層は時間情報が早くに併合しないようにカーネルサイズ1x2x2のストライド1x2x2になっている.
- kerasでの実装→https://github.com/axon-research/c3d-keras
4.有効性の検証
Sports-1MデータセットとUCF101で検証を行い,slow Fusionなどと比較している.
5.議論はあるか?
#6.次に読むべき論文はあるか?
7.使えそうなノウハウ
→オーバーラップしていない16フレームのクリップに分割して使用
1動画から訓練データをたくさん作れそう