1. 概要
この研究では、2次元画像の物体検出手法を、多視点画像の3次元物体検出手法へ拡張する手法を提案している。多視点画像を入力とした3次元物体検出手法は、近年数多く提案されているが、主にマルチビュー画像から3D表現を学習することを主眼としており、密な特徴抽出手法を採択するか、画像内に点在する同一物体の情報を集約していたため、いずれも計算コストが膨大にかかっていた。
2. 新規性
新しいアイディアとして、Multi-View 2D Objects guided 3D Object Detector(MV2D)を提案している。これは、任意の2次元物体検出器(例えば、SSDやYOLOなど)をマルチビュー向けの3次元物体検出器に適用させる技術である。
3. 実現方法
2Dの物体検出器を使って物体の位置に関する有益な事前情報を提供できる点に着目し、これを利用して画像のセマンティクスに基づいたクエリを物体ごとに生成する(Object Queries)。生成されたクエリは、カメラの画角内に含まれる物体に基づいており、3D空間の推定においても物体の位置を強力に特定することができる。生成されたクエリに対しては、特定の物体の特徴(Object Features)に焦点を当てるように設計された疎なクロスアテンション(Sparse Cross Attention)を適用し、ノイズからの干渉を抑制している。
4. 結果
大規模自動運転用データセットnuScenesを使って評価実験を行っており、クエリを物体ごとに生成させ疎なクロスアテンションをを適用することで、3Dの物体検出能力を向上させていることを示している。表は、クロスアテンションレイヤー内の物体のクエリとキー、バリュー(Q/K/V)のうちどれを採用すると精度に影響するかを探索的に調査している。(Top1はtop1 IoUを、AOはall overlappedを意味する)
物体ごとのPrecision-Recall曲線を見ても、ベースラインと比べて大幅な性能向上を達成している。
last updates: Oct 9 2023