StereoDRNet: Dilated Residual Stereo Net
PSMNetの進化版で精度も高くFLOPS数も小さい。
Dilationを用いる事でGlobal情報を学習しながら小さいモデルでも精度が出るようになった。
Feature Extraction
他のネットワークと同じでdownsampleしながら畳み込む。最終的に1/4のwidthとheightになる。もっとglobalな情報にもアクセスしたいので、Dialationを用いて複数解像度のデータを結合している。
Cost Volume
PSMNetとほとんど同じで、Dilationを使うことでよりGlobalとLocalの情報にAccessしようとしている。
Disparity Refinement
いつも計算するGeometric ErrorとPhotometric ErrorとLeft Imageを入力してOcclusion MapとResidual Disp Rを推定する。
Residual Disp RはLeft Imageと2つのErrorによって計算された差分で、Left Disparityを足す事でRefineされたDisparityを求めることが出来る。
Ground TruthのOcculusion Mapと比較してCross-Entropy-Lossを計算する。
どうやってGround TruthのOcclusion Mapを作るのか気になる。
RefineしたDisparity MapとGround TruthのDisparity Mapの差分を計算する。
結論
Dilationを用いたSpatial Poolingをすることで、Globalな情報を捉えラてるようになり、texture lessな場所なども以前より精度よく推定出来るようになっている。Disparity Refinementで使われていたOcclusionの推定はどうやってGround Truthを得れるのか不明で、もしSimulator以外で出来るのであれば役立ちそう。