DSGN: Deep Stereo Geometry Network for 3D Object Detection

新規性
plane-sweep volume (PSV)
今まではCost-Volumeを作る時にDisparityを使っていたが、DepthをCost Volumeに使う事にした
3D geometric volume (3DGV)

図を見ると逆に混乱するかもしれないですが、ただCost-Volume(u,v,d)を3次元(x,y,z)に座標変換しただけ。車の形が変形してるので、なんか凄いことをしているのかと最初は困惑しました(T_T)

自分で図を書くと分かりやすいかもです。
*zが上ではなく前になっているのに注意
3D Object Detector on 3D Geometric Volume
3DGVで得た3次元位置を使ってFCOSとういモデルを使うそうです。
畳み込んで高さ情報をChannelに落とし込み、2次元のBEV(Bird Eye View)でObject Detectionする構成になってます。PointPillarみたいな感じですね。
結果

Pseudo LiDAR ++を圧倒してますね!!
結論
・3D Object Detectorのinputに変化したpoint cloudを入力するのでは特徴量を使う事で精度UP?
・Cost-VolumeにDisparityではなくDepthを使う事で、SmoothingのFilterがより良く働く。
参考文献
DSGN: Deep Stereo Geometry Network for 3D Object Detection
https://arxiv.org/pdf/2001.03398.pdf