概要
単眼で距離を推定する時に、様々なセンサーを同時に学習しようとすると安定しないという課題がありました。
OMNI3DではVirtual Depthとうい手法を取り入れることで、その課題を解決しました。
Virtual Depth
OMNI3Dでは距離をVirtual Depth(仮想距離)に変換する事で、焦点距離(f)と画像の高さ(H)の影響をなくす事を提案しています。
Virtual Depthを入力データに適応することで、焦点距離の違うカメラと画像のリサイズをして学習する事が出来るようになりました。距離画像だけではなく、三次元Bounding Boxにも適応出来ます。
公式がイメージしやすい為に例を出します。
焦点距離を1/2にすると距離も1/2になります。
画像サイズが1/2になると、物体のサイズが1/2(小さく)になるので、2倍遠くにいるように見えます。
結果
base lineのモデルから、Virtual Depthを除くと精度が大きく下落してるのがわかります。
参考文献
OMNI3D: A Large Benchmark and Model for 3D Object Detection in the Wild
https://arxiv.org/pdf/2207.10660.pdf