
StereoNetがGC-Netよりメチャクチャ早かったからその理由を見ていきたい。
Feature Extraction
Feature Mapの解像度を小さくする
1. 大きなreceptive field=>texture lessの場所に役立つ
2. feature vectorをコンパクトに出来る。
Cost Volume

ほとんどの計算時間が3D convolutionに使われる。
入力の画像を小さくする事で粗いが早くDisparityを求める事が出来る。
Hierarchical Refinement: Edge-Aware Upsampling
Cost Volumeで得た粗いDisparityを出力の解像度までupsamplingする。
color画像とupsampleしたDisparity Mapを結合し、ネットワークでDisparityを再度推定する。
color画像からedgeなどを見つけて、refineしてくれる。

結果

k = 8で0.015sの速度が出た。しかし精度はそこまで低下していない。
結論
Cost Volumeの3D Convolutionを小さくすれば計算は早くなる。
参考文献
StereoNet: Guided Hierarchical Refinement for Real-Time Edge-Aware Depth Prediction
https://openaccess.thecvf.com/content_ECCV_2018/papers/Sameh_Khamis_StereoNet_Guided_Hierarchical_ECCV_2018_paper.pdf