EdgeStereo: A Context Integrated Residual Pyramid Network for Stereo Matching
従来のStereo Depth EstimationにEdgeの情報を加える事でより精度があがったという研究である。
Context Pyramid
 以下の3つを比較しpooling context pyramidを採用 ・convolution context pyramid ・pooling context pyramid ・dilation context pyramidResidual Pyramid
2-stageのDisparityをrefinementするネットワークでは初期Disparityの差を学習するが、この差がとても小さい事から学習が困難である。
ds => disparity map dS ( 1/2^(S−1) of the full resolution)
u(·) => 2倍にupsample
rs => refineする為のDisparityの差のblock
グレーのAggregated Featureの入力は左の画像とwarpした左の画像の差分をError Mapとする。
Cooperation of Edge Cues
Fle(左のedge)、Flr(左の特徴量Map)、Fc(cost volume)を結合することで、エッジの情報とlocalの情報を学習出来ると期待している。Edge MapはFlのそれぞれのScaleの情報から推定される。
Edge MapはSmoothness LossのEdgeの重みを小さくするのに役立つ。
結論
EdgeDetectionをする事でかなり複雑なネットワークになっている気がする。 Edgeを今までと同じように入力画像の1次微分または2次微分にしたらかなりスッキリすると思う。 たしかにEdgeまで綺麗にDisparityが推定されている事が分かる。
Edgeの所まで綺麗に推定したい人は論文を読んで見ると良いかも。