End-to-EndのStereo Depth Estimationの基本となるモデル
Stereo DepthのDeep Learningを学びたいって人はまずこの論文を読むのがオススメ
・Feature Extraction
・Cost Volume
・Learning Context
・Soft ArgMin
Feature Extraction
右と左のFeature Mapを抽出する為に2D Convolutionを行う。 この時Shared-weightにすることで右と左の画像で同じ特徴を捉えられるので、LeftとrightのSimilarityを計算するのに役立つ。Cost Volume
入力 出力 [Width,Height,Channel]=>[Width,Height,Disparity+1,Channel]Cost Volumeは入力のFeature Mapを0~MaxDisparity(任意の値)まで1pixelずつしていくだけ。
Learning Context
Cost Volumeを作った時点で右と左の特徴量が近いものを計算すればDisparityは出力出来るのだが、もっと精度をあげたい! LocalのコンテキストのMatchingだけじゃなくて画像全体(Global)のContextも学習する為に3D Convolutionを行う。要するにRefinementをするネットワーク