1. 概要
カメラから360°の多視点画像を撮影し、これを入力として道路の俯瞰地図を自動生成する手法を提案している。高精度な地図を生成するためには、道路の目印となるランドマーク間の接続情報を正確に特定する必要があるが、俯瞰地図を生成させるネットワークを学習させるうえで、ユークリッド構造(例えば、道路の位置)と非ユークリッド構造(例えば、どの道路とT字路や道がつながっているかという道路のトポロジカルな接続情報)の複雑な組み合わせを考慮しなければならなかった。従来手法ではこの2つのデータドメインをうまく統合できなかったため、生成クオリティが低かった。
2. 新規性
この研究では、ユークリッド構造と非ユークリッド構造のデータを両方一遍に同じ空間に射影することでドメイン間の垣根を超えた特徴空間にマッピングし、さらに自己回帰型のトランスフォーマー(auto-regressive sequence-to-sequence Transformer)でモデル構築を行っている。
3. 実現方法
アーキテクチャはエンコーダー・デコーダーになっている。エンコーダーでは複数のオンボードカメラ(Lift-Splat-Shoot)から俯瞰画像の特徴を抽出しており、現在自分がいる位置の周囲を俯瞰した特徴が得られる。デコーダーではいくつかの層を含み、自己注意層(self-attention layer)と交差注意層(cross-attention layer)、およびMLP層(Multi-Layer Perceptron Layer)から成る。自己注意層と交差注意層は、異なるタイプの情報を結合または処理するための注意メカニズムで、MLP層は情報の変換や最終的な出力を生成するのに使用される。
ここで、RoadNet Sequenceは統合した俯瞰画像特徴の左上からグリッドで区切り順にシーケンスに渡される。後段のSynthetic noisesはMasked Autoencorderのようにモデルに汎化性を持たせるのに効果的である。
4. 結果
大規模な自動運転用データセットとしてしられるnuScenesで評価実験を行っており、提案手法が従来手法と比べて高速かつ高精度に俯瞰地図の自動生成に成功していることが分かる。
last updates: Oct 8 2023