LoginSignup
2
4

More than 5 years have passed since last update.

Learning Spatio-Temporal Representation with Pseudo-3D Residual Networksを読んだ

Last updated at Posted at 2018-10-09

Qiu, Zhaofan and Yao, Ting and Mei, Tao, "Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks", in ICCV2017, pp.5533-5541, 2017. Online PDF at CVF

1.どんなもの?

・3×3×3の畳み込みの代わりに3x1x1と1x3x3の畳み込みを組み合わせることで擬似的な3次元畳み込みを行う
・Pseudo-3D Residual Net(P3D ResNet)というアーキテクチャを提案

2.先行研究と比べてどこがすごいか?

・2D空間畳み込みと1D時間接続を組み合わせたResNetの2D Residual Unitsを置き換えた残差ブロック(P3Dブロック)を提案
・2D畳み込みと1D畳み込みに分けることで画像認識における事前学習済みの重みを利用することが可能

3.技術や手法の肝はどこにあるか?

Residual Unit

層の入力を参照した残差関数を学習することでネットワークモデルを深くする(誤差を再利用することで勾配消失問題を回避する)
-参照
スクリーンショット 2018-10-05 3.39.19.png

P3D Blocks design

3つのP3Dブロックを提案
ResNetのボトルネック構造をそのままに適用させている
スクリーンショット 2018-10-05 3.37.51.png
3つのP3Dブロックのメリットを検証
3つのP3Dブロックをすべて構造的多様性の観点から混合することで、P3D ResNetの完全版が提案
スクリーンショット 2018-10-05 15.26.17.png

P3D-A

1Dフィルタ(T)と2Dフィルタ(S)を縦に繋ぐ.2つのフィルタは同じ経路で互いの影響を受ける
スクリーンショット 2018-10-05 4.18.46.png

P3D-B

両方のフィルタが異なる経路で並行している点
SとTとの間には直接の影響はないが、両方とも最終出力に直接蓄積
スクリーンショット 2018-10-05 4.36.05.png

P3D-C

S、Tと最終出力の間の直接的な影響を同時に構築
スクリーンショット 2018-10-05 4.38.00.png

完全版

アーキテクチャ内の異なるP3Dブロックを混合して構造の多様性を高めることにより、P3D
ResNetの完全版を考案
スクリーンショット 2018-10-08 22.00.22.png

4.どうやって有効だと検証した?

スクリーンショット 2018-10-08 22.10.05.png

スクリーンショット 2018-10-08 22.26.22.png

主成分分析

どの次元でもP3DNetがうまくいっている
スクリーンショット 2018-10-08 22.27.29.png

2
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
4