1. 概要
自動運転とロボティクスにおいて、密集した3D再構築と自己運動推定は主要な課題であり、マルチカメラシステムはよりシンプルで低コストな代替手段となる。しかし、複雑な動的シーンのカメラベースの3D再構築は非常に困難であり、既存の解決策では不完全な結果や矛盾した結果が生じることがある。
それを解決するためのアプローチとして密集した3D再構築と自己運動推定のためのマルチカメラシステムを提案している。
2. 新規性
- R3D3というシステムを提案し、動的なシーンにおける密な3D再構築と姿勢推定を行う。
- 新しいマルチカメラDBAの数式とマルチカメラの可視性グラフを使用して、幾何学的な深さと姿勢を推定する。
- 事前の幾何学的深さと不確実性を、モノクルの手がかりを使った深さの微調整ネットワークで統合する。
3. 実現方法
複数のカメラからの空間・時間情報を活用する幾何学的推定と、モノクル深度の改善を繰り返し行う。マルチカメラの特徴の相関と密なバンドル調整演算子を統合し、頑健な幾何学的深度と姿勢の推定を得る。また、移動物体や低テクスチャ領域など、幾何学的深度が信頼できない場合の再構築を改善するために、深さの改善ネットワークを介した学習可能なシーン事前知識を導入する。この設計により、困難な動的屋外環境において密集した一貫性のある3D再構築を実現する。
4. 結果
DDADおよびNuScenesのベンチマークにおいて、最先端の密な深度予測を達成した。