1. 概要
2D画像の物体検出をトランスフォーマーを使って予測するモデルにDETR(DEtection TRansformer)があり、画像内の物体の位置とクラスを同時に予測することができる。さらに3Dに拡張した三次元物体検出の研究も進んでいるが、後処理でポイントクラウドのように3D点群を使った物体検出の方が精度が高かった。この研究では、DETRによくみられる誤検出を抑制し、シンプルなネットワークで高精度な3D物体検出を実現している。
2. 新規性
ポイントクラウドの3D点群を入力とした3D物体検出技術の精度において最高性能を更新した。
3. 実現方法
DETRではシーン内の物体数よりも大きな数の候補数をデフォルトで設定しているため、実際の物体が無いところに対しても予測されてしまい、推論中に多くの誤検出が生じた。そこで、誤検出が局所的かつ多重に重なりを持つことに着目し、正解位置(GT:緑枠)に対してハンガリアンマッチングで最もマッチした候補(青枠)と、残りのマッチしなかった候補(灰枠)とをペアにして対比損失(Contrastive Loss)を求めることで、誤検知を抑制している。
4. 結果
既存手法に比べ誤検出を60%削減し、自動運転タスクでよく用いられるWaymoデータセットで71.6 mAPH/L2を達成しており、従来手法よりも2.0 mAPH/L2以上精度向上した。
*mAPH/L2: mean Average Precision(mAPH)は平均適合率を示しており、L2は3D位置の誤差をユークリッド距離を使って求めたもの。
last updates: July 6 2023