1. 概要
レーダーは電波を用いて物体との距離や速度を計測するセンサーで悪天候でも対象までの距離を測ることができるため車載用途でよく用いられる。従来のレーダーによる特徴抽出は、物体を識別できる最小距離(空間分解能)の低さやノイズ、電波を飛ばして受信機に届くまでに周囲の地形や建物で反射してしまうマルチパス反射や実際には存在しないターゲットを表示してしまう問題があった。
この研究では、まず、Swin Transformer(ICCV2021)を応用して時間的に再編成されたウィンドウアテンションを用いて、時間関係を捉えた特徴表現を学習する。次に、観測したレーダーデータから物体の動きの滑らかさを考慮した擬似的な物体軌道を生成し時間方向で一貫性を持たせる。これによって、従来は解決が難しかったレーダーを用いた物体検出と物体追跡を可能にした。
2. 新規性
- 時間方向への特徴量のアライメント:Swin Transformerの考え方を応用し、複数フレーム間の時間的な関係性を考慮することでより長期的な情報を使えるようにした。
- 物体の移動経路の予測:擬似的な軌道を用いて物体の動きの滑らかさを考慮してより正確な物体追跡を実現した。
3. 実現方法
提案手法はETRとMCTrackの2つのモジュールから構成されている。
- ETR(Extended Temporal Relation): 計算効率を維持しながら、時間的に変化するレーダー信号から一貫性のある特徴表現を抽出する
- MCTrack(Motion Consistency Track): 物体の動きの滑らかさを考慮することで、より正確な物体追跡を可能にする
まず、連続する複数のフレームのレーダー信号を入力とする。各フレームから特徴抽出器によって特徴量を抽出し、ETRモジュールで複数のフレームの特徴量を入力として受け取り、時間的な整合性を考慮した特徴表現を出力する。MCTrackモジュールでは、ETRモジュールから出力される時間整合の取れた特徴表現を入力として受け取り、疑似的な方向を推定したり擬似的な物体の軌道を生成したりする。物体検出ロスと擬似方向ロスを用いることで、物体検出と物体追跡の性能を向上させるようにモデルを学習させる。
ETRの内部では各フレームはサブフレームパッチに分割され、変形可能な時間順序に従って新しいウィンドウに再編成される。次に、スケーラブルなウィンドウ幅でアテンションをかけるために、マスク化したマルチヘッドクロスアテンション(MCA)をかける。これによって、計算量を抑えつつ異なる時間ウィンドウ間でアテンションをかけて情報交換できるようにしている。(Swin Transformerベース)
MCTrackのデコーダー部(DEst)では、2枚のフレームを使って疑似的な物体の進行方向を予測する。
4. 結果
提案手法では、Radiateデータセットにおいて指向性物体検出タスクで58.11mAP@0.5、多重物体追跡で47.79MOTAを達成しており、従来手法よりもそれぞれ+4.11mAP@0.5、+9.94MOTA性能向上させた。
提案手法では、時系列に沿った物体の軌跡まで考慮して物体検知と追跡を実現できており、ノイズが多く分類が難しいレーダー画像に対して高い精度を達成している。
last updates: June. 18 2024