1. 概要
この研究では、動画と3次元の物体認識技術を拡張して、新たな4次元空間における物体の位置推定技術を提案している。例えば、一人称視点の動画と検索対象の画像を与えると、動画内において検索対象の物体が最後に観測された位置座標を提示するシステムを提案している。
2. 新規性
Ego4D Episodic Memory BenchmarkはVisual Queries with 3D Localization(VQ3D)という新しいタスクを提案している。提案手法をSfM(Structure from Motion)へ適用し、カメラポーズの推定を評価したところ、従来手法では8.71%だった精度を77.27%まで向上させた。
3. 実現方法
EgoLocというパイプラインを提案しており、より高精度なカメラポーズの推定と、2Dの検索対象の物体を一人称視点の動画から効率的に探索する技術を実現している。2Dの物体検出の信頼度を利用してより頑健なカメラポーズを推定しつつ、多視点の3D変位を集約することで検索性能を大幅に向上させた。
4. 結果
最大で87.12%の成功率を達成しており、従来手法から10倍以上の高精度化に成功している。
last updates: Oct 9 2023