Qiu, Zhaofan and Yao, Ting and Mei, Tao, "Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks", in ICCV2017, pp.5533-5541, 2017. Online PDF at CVF
1.どんなもの?
・3×3×3の畳み込みの代わりに3x1x1と1x3x3の畳み込みを組み合わせることで擬似的な3次元畳み込みを行う
・Pseudo-3D Residual Net(P3D ResNet)というアーキテクチャを提案
2.先行研究と比べてどこがすごいか?
・2D空間畳み込みと1D時間接続を組み合わせたResNetの2D Residual Unitsを置き換えた残差ブロック(P3Dブロック)を提案
・2D畳み込みと1D畳み込みに分けることで画像認識における事前学習済みの重みを利用することが可能
3.技術や手法の肝はどこにあるか?
Residual Unit
層の入力を参照した残差関数を学習することでネットワークモデルを深くする(誤差を再利用することで勾配消失問題を回避する)
-参照
P3D Blocks design
3つのP3Dブロックを提案
ResNetのボトルネック構造をそのままに適用させている
3つのP3Dブロックのメリットを検証
3つのP3Dブロックをすべて構造的多様性の観点から混合することで、P3D ResNetの完全版が提案
P3D-A
1Dフィルタ(T)と2Dフィルタ(S)を縦に繋ぐ.2つのフィルタは同じ経路で互いの影響を受ける
P3D-B
両方のフィルタが異なる経路で並行している点
SとTとの間には直接の影響はないが、両方とも最終出力に直接蓄積
P3D-C
完全版
アーキテクチャ内の異なるP3Dブロックを混合して構造の多様性を高めることにより、P3D
ResNetの完全版を考案