More than 5 years have passed since last update.

Learning Spatio-Temporal Representation with Pseudo-3D Residual Networksを読んだ

Last updated at 2018-10-09Posted at 2018-10-09

Qiu, Zhaofan and Yao, Ting and Mei, Tao, "Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks", in ICCV2017, pp.5533-5541, 2017. Online PDF at CVF

１．どんなもの？

・3×3×3の畳み込みの代わりに3x1x1と1x3x3の畳み込みを組み合わせることで擬似的な３次元畳み込みを行う
・Pseudo-3D Residual Net（P3D ResNet）というアーキテクチャを提案

2.先行研究と比べてどこがすごいか？

・2D空間畳み込みと1D時間接続を組み合わせたResNetの2D Residual Unitsを置き換えた残差ブロック(P3Dブロック)を提案
・2D畳み込みと1D畳み込みに分けることで画像認識における事前学習済みの重みを利用することが可能

3.技術や手法の肝はどこにあるか？

Residual Unit

層の入力を参照した残差関数を学習することでネットワークモデルを深くする(誤差を再利用することで勾配消失問題を回避する)
-参照

P3D Blocks design

3つのP3Dブロックを提案
ResNetのボトルネック構造をそのままに適用させている

3つのP3Dブロックのメリットを検証
3つのP3Dブロックをすべて構造的多様性の観点から混合することで、P3D ResNetの完全版が提案

P3D-A

1Dフィルタ(T)と2Dフィルタ(S)を縦に繋ぐ．２つのフィルタは同じ経路で互いの影響を受ける

P3D-B

両方のフィルタが異なる経路で並行している点
SとTとの間には直接の影響はないが、両方とも最終出力に直接蓄積

P3D-C

S、Tと最終出力の間の直接的な影響を同時に構築

完全版

アーキテクチャ内の異なるP3Dブロックを混合して構造の多様性を高めることにより、P3D
ResNetの完全版を考案

4.どうやって有効だと検証した？

主成分分析

どの次元でもP3DNetがうまくいっている

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up