概要
最近SLAM分野を追えていなかったので、現時点でどのような研究がされているかICRA2024のSLAM関連のセッション(Visual-Inerial SLAM、Multi-Robot SLAM、SLAM I ~ VI、Mapping I ~ II、Localization I ~ VII、Localization and Mapping I~II、Localization and Navigation、Learning in Localization and Navigation)をまとめていく。まとめた内容は随時追加。
まとめ形式
- 論文
- 論文へのリンク
- 背景
- 課題
- 提案手法
- 新規性
- 提案手法の効果
- コード等
- 公開されたコードやその他データがあればリンクを添付
進捗
- 2024/06/10
- 論文リスト作成。あとはやるだけ。
- 2024/06/15
- Visual-Inerial SLAM完了
参考
ICRA2024全体まとめ
https://speakerdeck.com/rpc/icra2024-su-bao
Visual-Inerial SLAM
Field-VIO: Stereo Visual-Inertial Odometry Based on Quantitative Windows in Agricultural Open Fields
- 論文
- 論文へのリンク
- 背景
農業における自律型ロボットの台頭により、視覚慣性オドメトリ (VIO) システムが注目されています。VIO は、環境情報を利用し費用対効果が高いという利点があります。しかし、農業の開けたフィールドは、均質な外観、変化する照明条件、起伏の激しい地形、不安定な特徴を特徴とし、VIO システムの精度に課題が生じています。 特に、従来のループクロージャー検出 (LCD) メソッドは、農業環境で頻繁に発生する反復的な景観では効果がないことが証明されています。 - 課題
既存の VIO システムは、農業の開けたフィールド特有の課題に対処するのに苦労しています。これらの課題には以下が含まれます。- 均質性、照明の変化、でこぼこの道、不安定な特徴: これらの要因により、VIO システムは、農業のシナリオで正確な自律的な位置特定を行うのが困難になります。
- ループクロージャー検出 (LCD) の失敗: 従来の Bag of Words (BoWs) に基づく LCD アルゴリズムは、均質な環境では効果がなく、農業の開けたフィールドで効果的に機能することができません。
- 反対の視点からのシーンの再観察: ロボットが作物の列に沿って移動すると、ループクロージャーの場所を反対の視点から再訪れることが多く、LCD のパフォーマンスがさらに低下します。
- 提案手法
この論文では、農業の開けたフィールドで堅牢な位置推定を実現する、ORB-SLAM3 をベースにした新しいステレオ VIO システムである Field-VIO を提案しています。このシステムは、以下の主要コンポーネントで構成されています。- 定量的なウィンドウ: この論文では、作物の列に沿ったロボットの軌跡のセグメントを表すために、「定量的なウィンドウ」の概念を導入しています。これらのウィンドウは、ロボットの移動状態を分析および定量化することによって抽出され、空間的な制約を確立するための基礎として機能します。
- 運転状態の定量化アルゴリズム: ロボットの運転状態(例:直進、旋回)を正確に識別して定量化し、異なる作物の列間の定量的なウィンドウの正確な分離を可能にするアルゴリズム。このアルゴリズムは、軌跡の最適化と累積誤差の軽減に役立ちます。
- 空間的並列制約と異常修正: Field-VIO は、識別された定量的なウィンドウ間に空間的な並列制約を確立します。これらの制約は、長期的なデータの関連付けを強化し、ドリフトを最小限に抑えます。さらに、異常な空間的並列処理を検出して修正するためのメカニズムが実装されており、全体的な軌跡の精度がさらに向上します。
- 新規性
Field-VIO は、農業の開けたフィールドの文脈における VIO システムの制限に対処するための新しいアプローチを提供します。この論文の主な新規な貢献は次のとおりです。- 農業の開けたフィールドでの累積誤差の軽減: 提案されたステレオ VIO システムは、農業の開けたフィールドで VIO システムの累積誤差を軽減することを具体的に目的とした最初の試みです。
- 定量的なウィンドウに基づく軌跡の抽象化: 作物の列に沿ったロボットの動きを定量的なウィンドウとして表現することは、この分野における新しい概念です。これにより、農業環境の構造的特徴を利用した軌跡の分析と最適化が可能になります。
- 運転状態の定量化とウィンドウ分離: 運転状態の定量化アルゴリズムの開発は、長期的なデータの関連付けと軌跡の修正のための定量的なウィンドウの正確な分離を確実にする上で重要な貢献です。
- 空間的並列制約と異常修正: 定量的なウィンドウ間の空間的並列制約の構築と、異常な並列処理を修正するための異常修正メカニズムの統合は、農業の開けたフィールドで長期的なデータの関連付けと累積誤差の軽減を実現するための新しいアプローチです。
- 提案手法の効果
Rosario データセット を使用した実験評価により、Field-VIO は最先端の VIO システムと比較して優れたパフォーマンスを発揮することが実証されました。Field-VIO は、テストされたすべてのシーケンス、特に長い軌跡と複数の旋回があるシーケンスで、平均絶対軌跡誤差 (APE) が大幅に減少しました。また、Field-VIO は、Rosario データセットに存在する、繰り返しのあるシーン、反射、過剰な日光による白飛び画像、起伏の激しい地形などの困難な条件下でも堅牢性を示しました。Field-VIO と比較対象として、VINS-Fusion, OKVIS, SVO 2.0, ORB-SLAM3, Basalt が使用されました。 - コード等
- 公開されたコードやその他データがあればリンクを添付
Online Calibration of a Single-Track Ground Vehicle Dynamics Model by Tight Fusion with Visual-Inertial Odometry
- 論文
https://arxiv.org/abs/2309.11148 - 背景
自律移動ロボットのナビゲーションには、自己位置推定と正確なロボット動力学モデルに基づく経路計画と制御が必要となる。 従来の地上ロボットの研究では、状態推定とロボット駆動の動力学モデルの較正は別々に解決されてきた。 自己位置推定には、低コストで優れた追跡精度を持つVisual-Inertial Odometry (VIO) が注目されている。 一方で、ロボット工学分野では、GPSやオドメトリを用いて車両の姿勢、速度、加速度を計測し、車両の横滑り角や質量、タイヤ係数などの車両パラメータを推定する研究が行われている。 - 課題
本論文では、VIOに運動モデルを統合する際に、従来手法では考慮されていない点が指摘されている。- 車輪付きロボットの動力学モデルは、地形の特性やタイヤの状態によって変化する可能性がある。
- 従来の動力学モデルは、車両の速度がゼロに近づくと特異点が発生する。
- 提案手法
ST-VIO: 車輪付きロボットのためのVIOとシングルトラック車両ダイナミクスモデルをタイトに統合する手法。- 特異点のないシングルトラックモデル: 車両の速度がゼロに近づいても特異点が発生しないよう、動力学モデルを修正。
- オンラインパラメータ較正: VIOの状態変数と同時に動力学モデルのパラメータをオンラインでリアルタイムに推定および較正。
- 複数ステップの動き制約: 複数ステップ先までの予測を可能にするため、最適化ウィンドウ内の最初のフレームから最後のフレームまでの間の複数ステップの動き制約を計算。
- 幾何学的制約: シングルトラックモデルが平面運動のみを表すため、VIOシステムに確率的平面制約を追加。 車両の形状情報に関する事前知識も組み込む。
- ダイナミクスファクターと幾何学的制約の統合: 上記の要素をVIOシステムに統合し、現在のウィンドウ内のすべての最近のフレームを接続するダイナミクスファクターと、各フレームに追加される幾何学的制約ファクターを実現。
- 新規性
- 特異点のないシングルトラックモデル: 従来手法で問題となっていた、車両の速度がゼロに近づくと発生する特異点を、動力学モデルの修正により解消。
- VIOとのタイトな統合によるオンライン較正: 従来は別々に扱われていたVIOと車両の動力学モデルの較正を、オンラインで同時に行うことを実現。
- 提案手法の効果
- 追跡精度の向上: 屋内と屋外の様々な環境で収集した実データを用いて、提案手法であるST-VIOとオリジナルのVIOの追跡精度を比較。 結果として、特にフルスロットルでの動作において、平坦な地面ではST-VIOが追跡精度を向上させることが示された。
- 予測精度の向上: オンライン較正によってパラメータが調整され、運動予測の精度が向上することが示された。 具体的には、オフラインで較正されたパラメータとオンラインで較正されたパラメータを用いて、異なる時間 horizon (0.33秒、0.66秒、1.66秒、3.33秒、10秒) に対する予測精度を評価し、比較を行った。
- 環境変化への適応: 異なる車輪を用いたデータシーケンスを用いて、オンライン較正が環境変化に適応できることを確認。 具体的には、オンラインで較正されたパラメータと、古い車輪に対してオフラインで較正されたパラメータを用いて、予測誤差を比較した。
VI-HSO: Hybrid Sparse Monocular Visual-Inertial Odometry
-
背景
近年、自動運転、モバイルロボット、バーチャルリアリティなど様々な分野で、モノキュラービジュアルイナーシャルオドメトリ(VIO)やビジュアルイナーシャル同時位置推定と地図作成(SLAM)が広く活用されている。 -
課題
スパース画像アライメントアルゴリズムはフレーム間の動きを計算するのに効率的だが、大きな輝度変化やモーションブラーが発生した場合には失敗する傾向がある。
激しい動きの際には、新しい候補点の逆距離が収束せず、スケールドリフトやトラッキングの失敗につながることがよくある。 -
提案手法
VI-HSOは、適応型インターフレームアライメント(AIA)と動的逆距離フィルタ(DIDF)という2つの革新的な技術に基づく、ハイブリッドスパースモノキュラービジュアルイナーシャルオドメトリシステムである。- 適応型インターフレームアライメント: この手法では、測光誤差を構築する際に、元のLucas-Kanade(LK)法と逆合成法の間で適応的に選択できるようにし、さらにその過程に慣性情報を追加することで、スパース画像アライメントアルゴリズムの限界を克服する。
- 動的逆距離フィルタ: キーフレームの逆距離の収束率に基づいて収束範囲を調整することで、候補点の逆距離の収束を促進する。
-
新規性
- 適応型インターフレームアライメント: フレーム間の動きの正確な推定を容易にし、不規則な画像の輝度変化や高速回転に対するシステムの耐性を高める。
- 動的逆距離フィルタ: テクスチャのない領域や高速回転の影響を軽減するために、新しいマップポイントの逆距離の収束率を向上させる。
-
提案手法の効果
- 公開されているデータセット(EuRoC、TUM-VI)を用いた評価の結果、VI-HSOは、精度とロバスト性の両方において既存の手法よりも優れていることが実証された
- EuRoC データセット: MCSKF、OKVIS、ROVIO、VINS-Mono、VI-DSO、BASALT、DM-VIO、ORB-SLAM3。
- TUM-VI データセット: ROVIO、OKVIS、BASALT、VINS-Mono、DM-VIO。
- 特に、MH01、MH02、V101などの単純なシーケンスでは、VI-HSOはVINS-MonoやDM-VIOの2倍以上の精度を達成し、ORB-SLAM3よりも40%高い精度を達成した。
- V203シーケンスは、大きな動きによるモーションブラーや画像の輝度変化があるため、すべての方法にとって大きな課題となる。同様の問題により、V103でもオドメトリに大きな誤差が生じている。しかし、VI-HSOは適応型インターフレームアライメントを採用しているため、他の方法に比べて誤差がはるかに小さくなる。
- 現実世界での実験の結果は、このアプローチのロバスト性と、実際のシナリオにおける適用可能性をさらに裏付けている。
- 公開されているデータセット(EuRoC、TUM-VI)を用いた評価の結果、VI-HSOは、精度とロバスト性の両方において既存の手法よりも優れていることが実証された
Square-Root Inverse Filter-Based GNSS-Visual-Inertial Navigation
-
背景
GNSS(全球測位衛星システム)は、グローバルな測位を提供するためにしばしば使用されるが、その断続性や不正確さから、他のセンサーとの融合が必要とされている。
視覚慣性オドメトリ(VIO)または視覚慣性航法システム(VINS)は、自動運転、拡張現実/仮想現実(AR/VR)、航空機などのさまざまな分野で人気が高まっている。
VIOはドリフトを蓄積しやすく、グローバルな位置とヨーに対応する4つの観測不可能な方向があるため、グローバルなローカリゼーションを提供できない。
GNSS測定値は、利用可能な場合、グローバルフレーム内で絶対測定値を提供できるため、VIOドリフトを修正するために活用できる。 -
課題
- VIOとGNSSを融合する従来の疎結合アプローチは、GNSSの解像度に依存しており、追跡される衛星数が少ない状況では情報を提供できない場合が多い。
- VIOとGNSSを融合する従来の密結合アプローチは、計算効率が悪いか、オンラインでのGNSS-IMU外部パラメータの校正をサポートしていない。
-
提案手法
本論文では、GNSSの生測定値を効率的な平方根フィルタリングフレームワーク内で深く融合する、密結合GNSS-視覚慣性航法システム(GVINS)を提案する。- 具体的には、擬似距離、ドップラーシフト、単一差分擬似距離、二重差分搬送波位相を含むGNSS生データを、IMUおよびカメラ測定値と、SRI-SWFフレームワーク内で初めて深く融合する。
- リファレンスフレームとVIOフレーム間の変換を逐次的に適応的に収束させる、フィルターベースの初期化アプローチを開発する。
- 遅延および非同期GNSS測定値を使用して状態を更新するために、IMU統合を活用する。
- GNSS-IMU外部パラメータの劣化による悪影響を軽減するために、オンラインGNSS-IMU外部パラメータの校正を実行する。
-
新規性
- SRI-SWFフレームワーク内で、擬似距離、ドップラーシフト、単一差分擬似距離、二重差分搬送波位相を含むGNSS生データを、IMUおよびカメラ測定値と深く融合した初めての試み。
- フィルターベースの初期化アプローチ、IMU統合による遅延および非同期GNSS測定値を使用した状態更新、オンラインGNSS-IMU外部パラメータの校正。
-
提案手法の効果
提案手法を、独自のUAVデータセットと公開されているデータセットを用いて評価した。- 結果は、提案手法がリアルタイムでVIOドリフトを抑制できること、およびオンラインGNSS-IMU外部パラメータの校正の有効性を示している。
- 公開されているデータセットでの実験的検証では、提案手法が、GVINS やInGVIO などの最先端技術と比較して、精度と効率の両方において優れていることが明らかになった。
将来の課題として、ドップラーシフトなどのGNSS生測定値を使用したリファレンスフレーム変換の初期化の支援、SRI-GVINSにおける二重差分あいまいさを解決するためのLAMBDAアルゴリズム の直接的な採用、縮退動作を特定するためのSRI-GVINSの可観測性分析などが挙げられる。
Omnidirectional Dense SLAM for Back-To-Back Fisheye Cameras
-
背景
- パノラマカメラシステムは、360度のシーン情報をキャプチャできるため、近年注目され、開発が進んでいます。
- Insta360 や GoPro Max などの、背中合わせのデュアルフィッシュアイカメラを使用した360度デバイスは、すでに製品化されています。
- パノラマ画像に基づく研究は、深度予測 や SLAM など、大きな進歩を遂げています。
- 予測された360度深度マップとSLAMシステムを組み合わせることで、3次元幾何学的マッピングを実現できます。
- 従来の研究の多くは、オンラインデータストリームではなく、後処理されたパノラマ画像に焦点を当ててきました。
- これらの手法をオンラインフィッシュアイデータストリームに適用することは、特にリソースの限られたデバイスでは依然として困難です。
- 背中合わせのフィッシュアイカメラは、視野の重複が最小限であるため、フィッシュアイベースの深度予測が困難になります。
-
課題
- オンラインフィッシュアイデータストリームを用いた、リアルタイムで動作する高精度なデンスマッピングを実現することが課題です。
- 特に、背中合わせのデュアルフィッシュアイカメラは視野の重複が最小限であるため、深度予測が困難になります。
- リソースの限られたデバイスでリアルタイムに動作するシステムを開発する必要があります。
-
提案手法
- 本論文では、背中合わせのデュアルフィッシュアイシステムからのオンラインストリームに基づく、新しいデンスVI-SLAMシステムを提案します。
- このシステムは、バイナリフィッシュアイカメラとIMUからのオンライン入力を取得します。
- フロントエンド追跡モジュールは、フィッシュアイ画像とIMUデータに基づいて、リアルタイムの姿勢推定を実行します。
- まず、FASTコーナー検出器を使用してコーナーポイントを抽出し、各フィッシュアイ画像でオプティカルフロー追跡にKLTメソッドを使用します。
- 追跡された特徴は、フィッシュアイ画像座標から正規化画像座標に変換されます。
- フィッシュアイ画像の歪みを考慮し、追跡された各スパースポイントの位置に基づいて異なる重みを割り当てます。
- フロントエンドモジュールによって生成されたキーフレームとローカル点群は、バックエンドデンスマッピングに使用されます。
- バックエンドモジュールは、以下の3つの主要なステップで構成されます。
- まず、外部パラメータと内部パラメータに基づいて、2つのフィッシュアイ画像をERP画像にステッチします。
- 次に、このステッチされたERP画像とローカルスパース点群をネットワークへの入力として使用します。ネットワークは、複数の深度ベースと信頼度を予測します。
- 最後に、深度の一貫性をさらに高めるために、深度ベースの重みと信頼度をウィンドウの最適化に組み込みます。
- バックエンドモジュールは、以下の3つの主要なステップで構成されます。
- パノラマSLAMシステム向けに調整された、軽量の深度補完ネットワークを提案します。
- ネットワークは、スパースポイント(SLAMシステムによって生成された)とパノラマ画像を入力として受け取り、深度ベースと信頼度を予測します。最終的な深度情報は、深度ベースの線形結合によって取得されます。
- 複数の深度ベースの表現を活用することで、深度ベースの重みをSLAMの従来の最適化に組み込み、パノラマ深度の継続的な改良を実現します。
- 具体的には、深度の最適化に、相対深度因子、スパース深度因子、事前重み因子を採用します。
-
新規性
- 背中合わせのデュアルフィッシュアイ構成に基づく、新しいリアルタイムデンスビジュアル慣性SLAMシステムを提案。
- パノラマSLAMシステム向けに調整された、軽量の深度補完ネットワークを提案。
- 複数の深度ベースの表現を活用することで、SLAMの従来の最適化に深度ベースの重みを組み込み、パノラマ深度の継続的な改良を実現。
-
提案手法の効果
- シミュレーションおよび現実世界のデータセットを用いた実験: 提案手法が、深度予測と3D再構成の点でSOTA手法よりも優れていることを示しました。
- 比較対象: Bifuse, Uni-Fuse, PanoFormer, HDRFuse
- モバイルデバイス(Mi9)上でのオンラインデモ: 提案手法の効率性を検証しました。
- 比較対象: 過去の深度予測手法
- 結果: 提案手法は、モバイルプラットフォームに適したリアルタイム性能を実現しました。
- シミュレーションおよび現実世界のデータセットを用いた実験: 提案手法が、深度予測と3D再構成の点でSOTA手法よりも優れていることを示しました。
Visual Inertial Odometry Using Focal Plane Binary Features (BIT-VIO)
-
背景
将来のモバイルデバイスでは、高度な空間認識機能が求められるようになると予想され、Visual Odometry (VO) や Visual Inertial Odometry (VIO) の低消費電力化と低遅延化が重要性を増している。
従来のカメラ技術は、一般的に30~60 FPSで動作し、センサーからホストデバイスに大量のデータを転送する必要がある。このようなデータ転送は、電力と遅延の両方の点でコストがかかり、さらに、これらのすべてのピクセルをホストデバイス上で処理する必要がある。
Focal-Plane Sensor-Processor Arrays (FPSP) は、イメージセンサー上で直接ビジョンアルゴリズムを実行できる新しい技術である。従来のカメラとは異なり、FPSPは画像平面上の個々のピクセルで計算を実行するため、低消費電力で高フレームレートの画像処理が可能となり、モバイルロボットに最適である。
SCAMP-5のようなFPSPは、並列処理を使用し、Single Instruction Multiple Data (SIMD) パラダイムに基づいている。 -
課題
300 FPSで動作するBIT-VOは、高速で機敏なカメラの動きに対してロバストである。しかし、推定された軌道には、focal plane 上の特徴検出のノイズに起因する高周波ノイズが含まれている。 -
提案手法
BIT-VIO: SCAMP-5を利用した世界初の6-Degrees of Freedom (6-DOF) Visual Inertial Odometry (VIO) アルゴリズム。- 300 FPSで動作するBIT-VOを拡張し、400 Hzで取得したIMU測定値からの予測を使用して、loosely-coupled sensor-fusion iterated Extended Kalman Filter (iEKF) によって動作および補正を行う。
- バイナリ記述子の計算に画像輝度情報を使用できないため、他のバイナリ記述子とは異なる、コーナー特徴の周囲のローカルバイナリエッジ情報から作成されたBIT記述子 (44ビット長のフィーチャ) を使用するBIT-VOに基づいている。
- BIT-VOの姿勢はバイナリ・エッジベースの記述子抽出、2Dから3Dへの再投影に基づいているため、BIT-VOの姿勢の不確かさ伝播を行う。
-
新規性
- FPSPを利用した世界初の6-DOF VIOアルゴリズムである。
- 高フレームレート (300 FPS) で動作し、IMU測定値 (400 Hz) を使用して高周波ノイズを除去することで、正確で滑らかな軌跡を提供する。
- バイナリ・エッジベースの記述子抽出と2Dから3Dへの再投影に基づくBIT-VOの姿勢の不確かさ伝播を提供する。
-
提案手法の効果
提案手法であるBIT-VIOは、モーションキャプチャシステムを用いて得られたground-truthデータと、BIT-VOに対して評価された。
評価には、円形、直線、曲線、ジグザグの軌跡を組み合わせた8つの現実世界の軌跡が使用され、これらは実際のアプリケーションを模倣するように設計されている。
結果は、多くの軌跡において、BIT-VOと比較して、BIT-VIOがATE (Absolute Trajectory Error) において改善を示したことを示している。
さらに、BIT-VOで顕著な高周波ノイズは効果的に除去され、より滑らかな軌跡推定結果が得られた。
PL-EVIO: Robust Monocular Event-Based Visual Inertial Odometry with Point and Line Features
-
背景
- 従来のカメラを用いたVIOシステムは、高速な動きや明暗差の激しい環境下では、モーションブラーやダイナミックレンジの制限により、安定した状態推定が困難である。
- イベントカメラは、固定フレームレートではなく、ピクセルレベルの照度変化を捉えることで、高速な動きや明暗差の激しい環境下でも、安定した視覚情報を提供できる。
- イベントカメラベースのSLAM/VO/VIOの研究の多くは、点ベースの特徴量に依存してきた。
- 人工的な構造物では、線や平面などの規則的な幾何学的形状を持つことが多く、点ベースの特徴量だけでは最適な表現にならない場合があり、自然の風景では点ベースの特徴量の方が一般的である。
-
課題
- 従来のカメラは、高速な動きや明暗差の激しい環境下では、モーションブラーやダイナミックレンジの制限により、安定した状態推定が困難である。
- イベントカメラは、静止状態など、カメラとシーン間の相対的な動きが制限されている場合、情報量が少なくなりノイズが発生しやすいため、従来のカメラの利点を補完する必要がある。
- 点ベースの特徴量は、人工的な構造物では、線や平面などの規則的な幾何学的形状を持つことが多く、最適な表現にならない場合がある。
-
提案手法
- イベントカメラ、標準カメラ、IMUのデータを統合した、堅牢なリアルタイムイベントベースVIOフレームワークであるPL-EVIOを提案。
- イベントカメラのイベントストリームから、点ベースの特徴量に加えて、線ベースの特徴量を設計・抽出することで、幾何学的構造情報を補完し、より正確で堅牢な状態推定を実現。
- IMUデータを用いたモーションコンペンセーションアルゴリズムを実装し、各イベントの動きを個々のタイムスタンプに応じて補正することで、回転と並進の動きを同じタイムスタンプに統合。
- イベントベースVIO (EIO) と、イベントと画像ベースVIO (EVIO) の2つのVIOフレームワークを統合。
- PL-EIO (Event+IMU) : イベントコーナー特徴量、線ベースイベント特徴量を用いた、イベントベースVIO。
- PL-EVIO (Event+Image+IMU) : イベントコーナー特徴量、線ベースイベント特徴量、点ベース画像特徴量の3種類の特徴量を統合したVIO。
-
新規性
- 3種類の特徴量 (イベントコーナー特徴量、線ベースイベント特徴量、点ベース画像特徴量) を統合することで、環境の構造に関するより多くの幾何学的制約を提供し、堅牢で信頼性の高い状態推定を実現。
- HDR環境やアグレッシブな動きに対応するために、イベントベースの線ベース特徴量と記述子を設計し、フロントエンドの漸増的な推定に活用。
- イベント、画像、IMU測定値を緊密に融合させた、堅牢で高精度、かつリアルタイムな最適化ベースの単眼イベントベースVIOフレームワークを提案。
-
提案手法の効果
- 高ダイナミックレンジ環境での評価: 異なる解像度のイベントカメラ (DAVIS346 (346260) および DVXplorer (640480)) を使用し、VICONのグランドトゥルースデータを用いて評価。
- 比較対象: VINS-MONO, PL-VINS, ORB-SLAM3, Ultimate SLAM (EIO および EVIOバージョン), 従来のEIO
- 結果: 提案手法は、特にVINS-MONO、PL-VINS、ORB-SLAM3などの画像ベースのVIO/VOが失敗するような、明暗差の激しい環境やアグレッシブな動きがある環境下においても、他の手法と比較して優れた性能を示した。
- アグレッシブな動きにおける評価: 高速でアグレッシブな視覚慣性オドメトリデータセットであるUZH-FPVデータセットを用いて評価。
- 比較対象: ORB-SLAM3 (ステレオVIO), VINS-Fusion (ステレオVIO), VINS-MONO (単眼VIO), Ultimate SLAM (EVIO)
- 結果: 提案手法は、高解像度カメラを使用したステレオVIOと比較しても、優れた性能を達成した。
- イベントカメラデータセットでの評価: 公開されているイベントカメラデータセットを用いて、他のEIO手法と比較評価。
- 比較対象: 過去のEIO手法
- 結果: 提案手法は、最先端の性能を達成した。
- オンボードテスト: クアッドコプターのフリップ実験を行い、アグレッシブな動きにおける提案手法の性能を評価。
- 結果: 提案手法は、極端な速度の動きにもかかわらず、クアッドコプターの姿勢を高精度に追跡することに成功した。
- 大規模屋外環境での評価: ループクロージャの評価を行わず、約980mの軌跡 (長さ約160m、幅約100m、高さ変化約10mの領域をカバー) を使用し、Googleマップと位置合わせして評価。
- 結果: 提案手法は、この長距離の動き評価において、ほぼドリフトフリーで動作した。
- 高ダイナミックレンジ環境での評価: 異なる解像度のイベントカメラ (DAVIS346 (346260) および DVXplorer (640480)) を使用し、VICONのグランドトゥルースデータを用いて評価。
JacobiGPU: GPU-Accelerated Numerical Differentiation for Loop Closure in Visual SLAM
-
背景
ビジュアルSLAMシステムでは、ループクロージャは、以前に訪問した場所を再訪問したときにドリフトを修正するために重要です。 ループクロージャは、通常、計算コストの高いポーズグラフ最適化(PGO)問題として解決され、リアルタイムアプリケーションでは最適化が不可欠です。 有限差分法(FDM)は、ヤコビアンを近似するためによく使用されますが、計算量が非常に多く、ポーズグラフ内の同一のポーズの繰り返し摂動が原因で非効率性が生じています。 -
課題
従来のFDM手法は、ポーズグラフ内の繰り返し摂動により、計算量のオーバーヘッドに悩まされています。 各ポーズはポーズグラフ内の複数のエッジに関連付けられており、各エッジに単一の摂動が適用されるため、合計で複数の摂動が発生するためです。 この問題は、GPUベースの線形ソルバーの恩恵を受けるのに十分な大きさでも密度でもない、屋外シーケンスのPGOによって生成されたヘッセ行列によってさらに複雑になります。 -
提案手法
提案手法であるJacobiGPUは、ビジュアルSLAMのループクロージャーにおける数値微分の計算ボトルネックに対処するために、GPUリソースを活用する手法です。JacobiGPUは、従来の手法のように単一の分割手法に従うのではなく、計算タスクに基づいてグラフを分割します。この手法は、各ポーズに対して1次元あたり1回だけ摂動させることで、従来の有限差分法(FDM)の冗長な摂動問題を解決します。具体的には、グラフを頂点ベースで分割し、各頂点を1回だけ調整することで効率化を実現します。
この手法では、GPUのメモリ管理、タスク管理、CPU-GPU間データ転送を考慮して最適化されています。 メモリ管理には1次元バッファを採用し、タスク管理にはカーネル起動を最小限に抑える設計を採用しています。 また、GPU上でポーズを直接更新することで、反復的なデータ転送を最小限に抑えています。 -
新規性
- 頂点ベースのグラフ分割: 従来のエッジベースの分割とは異なり、頂点ベースのパーティション分割により、各ポーズは線形化プロセス中に1回だけ摂動され、冗長性が排除され、計算効率が向上します。
- 同時双方向摂動: JacobiGPUは、個別のカーネル起動の必要性をなくし、GPUの使用率を最大化し、メモリアクセスを最適化することにより、単一のカーネル起動内で各ポーズに対して正と負の両方の摂動を同時に実行します。
- GPU上のインプレースポーズ更新: 専用の更新カーネルは、CPUとGPU間のデータ転送の必要性を排除し、反復的な最適化プロセス中の効率をさらに向上させます。
-
提案手法の効果
JacobiGPUをORB-SLAM3のg2oに統合して評価したところ、EuRoCデータセットとTUM-VIデータセットの両方で、線形化ステップで最大4.23倍、全体的な最適化プロセスで最大2.08倍の高速化が示されました。
提案手法の効果の検証には、EuRoCデータセットとTUM-VIデータセットの12のシーケンスが用いられ、標準のg2oと比較されました。 さらに、χ2誤差とSLAM軌道の一貫性を比較して、最適化の他の側面と全体的なSLAMパイプラインの一貫性を示しました。
MAVIS: Multi-Camera Augmented Visual-Inertial SLAM Using SE2(3) Based Exact IMU Pre-Integration
-
背景
ロボット工学やコンピュータビジョンにおいて、堅牢でリアルタイムのSLAM (Simultaneous Localization and Mapping) は長年の課題である。
視覚ベースのSLAMソリューションは、LiDARベースのソリューションに比べて堅牢性と精度が不足している場合が多い。
この問題に対処するために、特にXRデバイスでは、角速度と加速度を測定する低コストなIMUなどの追加センサーが使用される。
モノキュラーやステレオの視覚慣性ソリューションは、IMU測定値を統合することで、テクスチャのない環境や機敏な動きなどの縮退シナリオにおけるロバスト性を高める可能性を示している。
しかし、既存の視覚慣性ソリューションは、カメラの視野が限られていること、長時間にわたる特徴追跡の失敗を処理する能力が制限されていることなど、依然として課題に直面している。 -
課題
既存のモノキュラーやステレオの視覚慣性ソリューションは、カメラの視野が限られていること、長時間にわたる特徴追跡の失敗を処理する能力が制限されているなどの課題がある。
これらの課題は、IMUを使用している場合でも、システムの急速な発散につながり、測位精度が大幅に低下する可能性がある。
複数のカメラシステムで構成されるマルチカメラシステムは、広い視野と環境の全方向観測という利点を提供するが、精度、ロバスト性、計算効率のバランスを完全に実現したものはまだない。
既存のIMU事前統合手法は、キーフレーム間でIMU測定値を事前統合することで、計算効率を向上させるが、IMU測定値間でIMUが回転しないと仮定して位置と速度の不正確な統合に依存しているため、高速回転運動や長い統合時間の場合、事前統合された姿勢の精度に悪影響を及ぼす可能性がある。 -
提案手法
MAVIS: 複数の部分的に重複するカメラシステム向けに設計された、最先端の最適化ベースの視覚慣性SLAMフレームワーク。- SE2(3)に基づく正確なIMU事前統合: 高速回転運動や長い統合時間でもIMUデータの正確な統合を保証する、SE2(3)の自己同型の指数関数に基づく新しいIMU事前統合法を導入する。
- マルチカメラシステム用のフロントエンド追跡とバックエンド最適化の拡張: ローカルマップベースのローカリゼーション戦略を採用し、カメラ間とカメラ内の両方で特徴マッチングを実行して、可視関係を強化する。
- 実装の詳細:
- 視覚測定の前処理: ヒストグラム均等化、フレームドロップと同期問題への対処など、データの前処理を実行する。
- カメラとIMUの初期化: ステレオ情報とIMU事前統合を使用して、堅牢で正確な初期化を実行する。
- ループクロージャ: カメラ間とカメラ内の両方からループクロージャ候補を検出し、グローバルバンドル調整を実行する。
-
新規性
- 部分的に重複するマルチカメラシステム向けに設計された、正確で堅牢な視覚慣性SLAMフレームワークであるMAVISを提案する。
- SE2(3)の自己同型の指数関数に基づく新しいIMU事前統合法を導入し、高速回転運動や長い統合時間における追跡性能を向上させる。
- マルチカメラシステムのフロントエンド追跡とバックエンド最適化モジュールを拡張し、困難なシナリオでのシステム性能を向上させるための実装の詳細を紹介する。
-
提案手法の効果
MAVISは、EuRoCデータセットとHilti SLAM Challenge 2023データセットを用いて、精度とロバスト性の点で評価された。
EuRoCデータセットでは、MAVISは、VINS-MONO、OKVIS、SVOGTSAM、EqVIO、OpenVINS、VINS-FUSION、Kimera、BASALT、ORB-SLAM3などの最先端の手法と比較して、絶対軌跡誤差(RMSE)で評価された。 結果は、MAVISがほとんどのシーケンスで非常に競争力のある精度を実現し、多くの場合、最先端の性能を上回ることを示した。
Hilti SLAM Challenge 2023データセットでは、MAVISは、シングルセッションのビジョン/IMUのみのトラックで2位にランクインしたBAMF-SLAMと、マルチセッショントラックで2位にランクインしたMaplab2.0と比較された。 MAVISは、すべてのビジョン-IMUトラック(シングルセッションとマルチセッションのSLAM)で1位を獲得し、2位と比較して1.7倍のスコアを達成した。