Object-Centric Stereo Matching for 3D Object Detection
事前知識としてInstance Segmentation, Stereo Depth Estimation, 3D Object Detection(LiDAR系で使われている奴)を理解しておくと、ただ3つのModuleの組み合わせなので簡単に理解出来ると思います。
新規性
パイプライン
水色の矢印がInstance Segmentationを表していて。 紫色の矢印がStereo Depthを表しています。 Depth Estimationの3次元情報をInstance Segmentationで得たエリアのpixelをcropのみくり抜くことでInstance Disparity Mapを作ります。 最後にお好きな3D Object Detectorを使えば3D Bounding Boxが推定出来ますObject-Centric Stereo stereo matching
普通のPSMNetなどのstreo matchingは計算が遅いので、画像全体ではなく、2D DetectionされたエリアのみにStereo Matchingをすれば早くなるだろうというアイデア。SSIM(Structure Of Similarity)で左と右の画像で対応するBoundingBoxを見つけるそうです。
結論
・Instance Segmentation, Stereo Depth Estimation, 3D Object Detectionを組み合わせる事でStereo Cameraのみで3次元の物体の位置を推定する事が出来ました。・Object-Centric Stereo stereo matchingは正直2D Detectorを右と左で2回行うか、Stereo Matchingを画像全体に行うかどちらかを選ぶかなんですが、使ってる2D DetectorとStereo Matchingの計算の速さによってどっちのシステムが良いか決まります。僕はSSIMで物体をAssociationするというアイデアが面白いと思うのですが、混雑している道路や人が横に並んでいたらAssociationが失敗する可能性が高いのではと思ってしまいました。だったら早いStereo Matchingをしたほうがシンプルで良いと思います。