1. 概要
LiDARとカメラは自動運転の3Dオブジェクト検出において補完的なセンサーであるが、異なる種類のデータを組み合わせることは難しく、特徴の整合性が問題となる。従来の方法では、投影キャリブレーションによる整合性を実現してきたが、座標変換の誤差が性能に影響を与える。この論文では、より正確な検出を行うための特徴の整合性戦略であるGraphAlignを提案している。具体的には、画像特徴と点群特徴を融合させ、点群特徴の最近傍点を画像特徴に投影する。さらに、自己注意モジュールを使用して特徴の整合性を微調整する。豊富な実験により、GraphAlignの効果と効率を実証する。
2. 新規性
- マルチモーダルな3Dオブジェクト検出における対応不良の問題を解決するために、グラフマッチングに基づいた特徴合わせフレームワークであるGraphAlignを提案している。
- 画像特徴とポイントクラウド特徴の正確な合わせを実現するために、Graph Feature Alignment(GFA)とSelf-Attention Feature Alignment(SAFA)モジュールを提案する。これにより、ポイントクラウドと画像モーダリティ間の特徴合わせが向上し、検出精度が向上する。
- KITTIおよびベンチマークを使用した実験により、GraphAlignが特に長距離オブジェクト検出の精度を向上させることが示された。
3. 実現方法
GraphAlignは、Graph Feature Alignment(GFA)モジュールおよびSelf-Attention Feature Alignment(SAFA)モジュールで構成されている。GFAモジュールは、画像とポイントクラウドの特徴を入力として受け取り、投影キャリブレーション行列を使用して3D座標を2Dピクセル座標に変換し、最も近い隣接点を見つけるための近隣情報を構築し、画像とポイントクラウドの特徴を結合する。SAFAモジュールは、自己注意機構を介してK個の近傍点の文脈的関係をモデリングし、融合された特徴の重要性を高め、最も代表的な特徴を選択する。
4. 結果
GraphAlignがKITTIおよびnuScenesデータセット上の3D検出器を大幅に改善することを示している。既存の射影ベースと注意ベースの特徴整列戦略に基づいて構築されている当研究は、自動運転における多モーダル特徴融合の新しい視点を提供できることを期待している。