End-to-End Learning of Geometry and Context for Deep Stereo Regression
 Cost VolumeでConcatenationを使った形のモデルは現在主流となっていて、恐らくこの論文が最初に提案したのではないかなと。 *過去にはcorrelation(相関性)という方法でInnerProduct(内積)が良く使われていた。 とりあえず、過去の方法より何が良いのか見ていきたいと思う新規性
Cost Volume
図の2D Convlutionで抽出した特徴量Map(Channel,Height,Width)を0[pixel]~maxdisparity[pixel]まで1つずつずらして左右の画像を結合する事でCostVolume(Disparity,Channel,Height,Width)が作れる。これはSGM(Semi Global Matching)等で行われてたPatchをスライドさせる作業の役割を果たす。
得たCost Volumeに対して3D CNNを行うことで、Disparity方向にも情報を畳み込む事が出来、Disparity のSmoothness等を加味してMatching Scoreを出力(Disparity,Height,Width)してくれる。
Soft ArgMax
Disparity方向に最大値を取って出力とするのではなく、Soft Maxをして合計が1になるようにして、それぞれのDiaparityに重みを掛けることで最終的な出力とする。そうすることで、sub-pixel accuracyを得れる。しかし、最大値を取るより、逆に精度が悪くなることもあると思う。