Pyramid Stereo Matching Network
皆な大好きPSMNet。Stereo Depthを代表するネットワークと言っても過言ではないだろう。
よく精度比較に引用される事が多い。
まだStereo Depthあまりわからないという人がいたらSGM、MC-CNNやGC-Netあたりみると良いと思う。
新規性
従来研究と同じで4step 1. Feature Extraction(左右からマッチングする為の特徴を取り出す) 2. Cost Volume(取り得るすべてのDisparityに対して特徴量をwarpさせて重ねていく) 3. 3D CNN(Matching Costが一番高いDisparityを探す) 4. Regression(SoftArgMaxを使ってDiaparity(i)である確率を正規化して、重み付け平均でDisparity Mapを出力する)ここまでは従来と同じで、精度を上げる為にSPP Moduleの導入とStacked hourglassという手法を提案した。
Spatial Pyramid Pooing Module
 2015年くらいに提案されたSPP Moduleを使い画像全体を参照出来るように導入。 High Resolutionの特徴を失わないようにConv2_16がconcatされている。Stacked hourglass
ResNet likeな単純なネットワークをbasicとして定義しています。Skip Connetionをすることで消失購買を回避することが出来ますね。
BasicからUpdateとしてはEncoder Decoderモデルが導入された事でより広い範囲を参照することが出来るようになった。おまけみたいな感じで3箇所でDisparityを推定出来るようにしている。そうすることで学習が安定しやすいメリットがあるのでいろいろな場面で良く使われている。
*上の矢印は見ると混乱するのであんまり気にしない方が良いかもしれないですね笑。大した事してないので無視無視
結論
・Feature ExtractionにSPP Moduleを導入する事で画像参照範囲を拡大 ・3D CNNにStacked hourglassを導入する事で精度が向上
精度があがったけど速度が遅いね。2018年時点では最速でも0.12[s]か。Real Timeシステムにはちょっと使えないな〜。実際に使う時って、論文に書いてある計算速度より遅くなるし、0.05[s]くらいで動いてくれると嬉しい。
PSMNet以上のの精度で0.05[s]以内で動くモデル探すぞ!