ICRA2024まとめ-SLAM関連-

Last updated at 2025-01-05Posted at 2024-06-10

概要

最近SLAM分野を追えていなかったので、現時点でどのような研究がされているかICRA2024のSLAM関連のセッション(Visual-Inerial SLAM、Multi-Robot SLAM、SLAM I ~ VI、Mapping I ~ II、Localization I ~ VII、Localization and Mapping I~II、Localization and Navigation、Learning in Localization and Navigation)をまとめていく。まとめた内容は随時追加。

まとめ形式

論文
- 論文へのリンク
背景
課題
提案手法
新規性
提案手法の効果
コード等
- 公開されたコードやその他データがあればリンクを添付

進捗

2024/06/10
- 論文リスト作成。あとはやるだけ。
2024/06/15
- Visual-Inerial SLAM完了
2024/06/29
- Multi-Robot SLAM完了
2024/07/13
- SLAM I完了
2024/08/09
- SLAM II完了
2024/08/14
- SLAM III、SLAM IV完了
2025/01/05
- SLAM V、VI完了

参考

ICRA2024全体まとめ
https://speakerdeck.com/rpc/icra2024-su-bao

Visual-Inerial SLAM

Field-VIO: Stereo Visual-Inertial Odometry Based on Quantitative Windows in Agricultural Open Fields

論文
- 論文へのリンク
背景
農業における自律型ロボットの台頭により、視覚慣性オドメトリ (VIO) システムが注目されています。VIO は、環境情報を利用し費用対効果が高いという利点があります。しかし、農業の開けたフィールドは、均質な外観、変化する照明条件、起伏の激しい地形、不安定な特徴を特徴とし、VIO システムの精度に課題が生じています。特に、従来のループクロージャー検出 (LCD) メソッドは、農業環境で頻繁に発生する反復的な景観では効果がないことが証明されています。
課題
既存の VIO システムは、農業の開けたフィールド特有の課題に対処するのに苦労しています。これらの課題には以下が含まれます。
- 均質性、照明の変化、でこぼこの道、不安定な特徴: これらの要因により、VIO システムは、農業のシナリオで正確な自律的な位置特定を行うのが困難になります。
- ループクロージャー検出 (LCD) の失敗: 従来の Bag of Words (BoWs) に基づく LCD アルゴリズムは、均質な環境では効果がなく、農業の開けたフィールドで効果的に機能することができません。
- 反対の視点からのシーンの再観察: ロボットが作物の列に沿って移動すると、ループクロージャーの場所を反対の視点から再訪れることが多く、LCD のパフォーマンスがさらに低下します。
提案手法
この論文では、農業の開けたフィールドで堅牢な位置推定を実現する、ORB-SLAM3 をベースにした新しいステレオ VIO システムである Field-VIO を提案しています。このシステムは、以下の主要コンポーネントで構成されています。
- 定量的なウィンドウ: この論文では、作物の列に沿ったロボットの軌跡のセグメントを表すために、「定量的なウィンドウ」の概念を導入しています。これらのウィンドウは、ロボットの移動状態を分析および定量化することによって抽出され、空間的な制約を確立するための基礎として機能します。
- 運転状態の定量化アルゴリズム: ロボットの運転状態（例：直進、旋回）を正確に識別して定量化し、異なる作物の列間の定量的なウィンドウの正確な分離を可能にするアルゴリズム。このアルゴリズムは、軌跡の最適化と累積誤差の軽減に役立ちます。
- 空間的並列制約と異常修正: Field-VIO は、識別された定量的なウィンドウ間に空間的な並列制約を確立します。これらの制約は、長期的なデータの関連付けを強化し、ドリフトを最小限に抑えます。さらに、異常な空間的並列処理を検出して修正するためのメカニズムが実装されており、全体的な軌跡の精度がさらに向上します。
新規性
Field-VIO は、農業の開けたフィールドの文脈における VIO システムの制限に対処するための新しいアプローチを提供します。この論文の主な新規な貢献は次のとおりです。
- 農業の開けたフィールドでの累積誤差の軽減: 提案されたステレオ VIO システムは、農業の開けたフィールドで VIO システムの累積誤差を軽減することを具体的に目的とした最初の試みです。
- 定量的なウィンドウに基づく軌跡の抽象化: 作物の列に沿ったロボットの動きを定量的なウィンドウとして表現することは、この分野における新しい概念です。これにより、農業環境の構造的特徴を利用した軌跡の分析と最適化が可能になります。
- 運転状態の定量化とウィンドウ分離: 運転状態の定量化アルゴリズムの開発は、長期的なデータの関連付けと軌跡の修正のための定量的なウィンドウの正確な分離を確実にする上で重要な貢献です。
- 空間的並列制約と異常修正: 定量的なウィンドウ間の空間的並列制約の構築と、異常な並列処理を修正するための異常修正メカニズムの統合は、農業の開けたフィールドで長期的なデータの関連付けと累積誤差の軽減を実現するための新しいアプローチです。
提案手法の効果
Rosario データセットを使用した実験評価により、Field-VIO は最先端の VIO システムと比較して優れたパフォーマンスを発揮することが実証されました。Field-VIO は、テストされたすべてのシーケンス、特に長い軌跡と複数の旋回があるシーケンスで、平均絶対軌跡誤差 (APE) が大幅に減少しました。また、Field-VIO は、Rosario データセットに存在する、繰り返しのあるシーン、反射、過剰な日光による白飛び画像、起伏の激しい地形などの困難な条件下でも堅牢性を示しました。Field-VIO と比較対象として、VINS-Fusion, OKVIS, SVO 2.0, ORB-SLAM3, Basalt が使用されました。
コード等
- 公開されたコードやその他データがあればリンクを添付

Online Calibration of a Single-Track Ground Vehicle Dynamics Model by Tight Fusion with Visual-Inertial Odometry

論文
https://arxiv.org/abs/2309.11148
背景
自律移動ロボットのナビゲーションには、自己位置推定と正確なロボット動力学モデルに基づく経路計画と制御が必要となる。従来の地上ロボットの研究では、状態推定とロボット駆動の動力学モデルの較正は別々に解決されてきた。自己位置推定には、低コストで優れた追跡精度を持つVisual-Inertial Odometry (VIO) が注目されている。一方で、ロボット工学分野では、GPSやオドメトリを用いて車両の姿勢、速度、加速度を計測し、車両の横滑り角や質量、タイヤ係数などの車両パラメータを推定する研究が行われている。
課題
本論文では、VIOに運動モデルを統合する際に、従来手法では考慮されていない点が指摘されている。
- 車輪付きロボットの動力学モデルは、地形の特性やタイヤの状態によって変化する可能性がある。
- 従来の動力学モデルは、車両の速度がゼロに近づくと特異点が発生する。
提案手法
ST-VIO: 車輪付きロボットのためのVIOとシングルトラック車両ダイナミクスモデルをタイトに統合する手法。
- 特異点のないシングルトラックモデル: 車両の速度がゼロに近づいても特異点が発生しないよう、動力学モデルを修正。
- オンラインパラメータ較正: VIOの状態変数と同時に動力学モデルのパラメータをオンラインでリアルタイムに推定および較正。
- 複数ステップの動き制約: 複数ステップ先までの予測を可能にするため、最適化ウィンドウ内の最初のフレームから最後のフレームまでの間の複数ステップの動き制約を計算。
- 幾何学的制約: シングルトラックモデルが平面運動のみを表すため、VIOシステムに確率的平面制約を追加。車両の形状情報に関する事前知識も組み込む。
- ダイナミクスファクターと幾何学的制約の統合: 上記の要素をVIOシステムに統合し、現在のウィンドウ内のすべての最近のフレームを接続するダイナミクスファクターと、各フレームに追加される幾何学的制約ファクターを実現。
新規性
- 特異点のないシングルトラックモデル: 従来手法で問題となっていた、車両の速度がゼロに近づくと発生する特異点を、動力学モデルの修正により解消。
- VIOとのタイトな統合によるオンライン較正: 従来は別々に扱われていたVIOと車両の動力学モデルの較正を、オンラインで同時に行うことを実現。
提案手法の効果
- 追跡精度の向上: 屋内と屋外の様々な環境で収集した実データを用いて、提案手法であるST-VIOとオリジナルのVIOの追跡精度を比較。結果として、特にフルスロットルでの動作において、平坦な地面ではST-VIOが追跡精度を向上させることが示された。
- 予測精度の向上: オンライン較正によってパラメータが調整され、運動予測の精度が向上することが示された。具体的には、オフラインで較正されたパラメータとオンラインで較正されたパラメータを用いて、異なる時間 horizon (0.33秒、0.66秒、1.66秒、3.33秒、10秒) に対する予測精度を評価し、比較を行った。
- 環境変化への適応: 異なる車輪を用いたデータシーケンスを用いて、オンライン較正が環境変化に適応できることを確認。具体的には、オンラインで較正されたパラメータと、古い車輪に対してオフラインで較正されたパラメータを用いて、予測誤差を比較した。

VI-HSO: Hybrid Sparse Monocular Visual-Inertial Odometry

論文
https://ieeexplore.ieee.org/document/10218742
背景
近年、自動運転、モバイルロボット、バーチャルリアリティなど様々な分野で、モノキュラービジュアルイナーシャルオドメトリ（VIO）やビジュアルイナーシャル同時位置推定と地図作成（SLAM）が広く活用されている。
課題
スパース画像アライメントアルゴリズムはフレーム間の動きを計算するのに効率的だが、大きな輝度変化やモーションブラーが発生した場合には失敗する傾向がある。
激しい動きの際には、新しい候補点の逆距離が収束せず、スケールドリフトやトラッキングの失敗につながることがよくある。
提案手法
VI-HSOは、適応型インターフレームアライメント（AIA）と動的逆距離フィルタ（DIDF）という2つの革新的な技術に基づく、ハイブリッドスパースモノキュラービジュアルイナーシャルオドメトリシステムである。
- 適応型インターフレームアライメント: この手法では、測光誤差を構築する際に、元のLucas-Kanade（LK）法と逆合成法の間で適応的に選択できるようにし、さらにその過程に慣性情報を追加することで、スパース画像アライメントアルゴリズムの限界を克服する。
- 動的逆距離フィルタ: キーフレームの逆距離の収束率に基づいて収束範囲を調整することで、候補点の逆距離の収束を促進する。
新規性
- 適応型インターフレームアライメント: フレーム間の動きの正確な推定を容易にし、不規則な画像の輝度変化や高速回転に対するシステムの耐性を高める。
- 動的逆距離フィルタ: テクスチャのない領域や高速回転の影響を軽減するために、新しいマップポイントの逆距離の収束率を向上させる。
提案手法の効果
- 公開されているデータセット（EuRoC、TUM-VI）を用いた評価の結果、VI-HSOは、精度とロバスト性の両方において既存の手法よりも優れていることが実証された
  - EuRoC データセット: MCSKF、OKVIS、ROVIO、VINS-Mono、VI-DSO、BASALT、DM-VIO、ORB-SLAM3。
  - TUM-VI データセット: ROVIO、OKVIS、BASALT、VINS-Mono、DM-VIO。
- 特に、MH01、MH02、V101などの単純なシーケンスでは、VI-HSOはVINS-MonoやDM-VIOの2倍以上の精度を達成し、ORB-SLAM3よりも40%高い精度を達成した。
- V203シーケンスは、大きな動きによるモーションブラーや画像の輝度変化があるため、すべての方法にとって大きな課題となる。同様の問題により、V103でもオドメトリに大きな誤差が生じている。しかし、VI-HSOは適応型インターフレームアライメントを採用しているため、他の方法に比べて誤差がはるかに小さくなる。
- 現実世界での実験の結果は、このアプローチのロバスト性と、実際のシナリオにおける適用可能性をさらに裏付けている。
コード等
https://github.com/luodongting/VI-HSO

Square-Root Inverse Filter-Based GNSS-Visual-Inertial Navigation

論文
https://arxiv.org/abs/2405.10874
背景
GNSS（全球測位衛星システム）は、グローバルな測位を提供するためにしばしば使用されるが、その断続性や不正確さから、他のセンサーとの融合が必要とされている。
視覚慣性オドメトリ（VIO）または視覚慣性航法システム（VINS）は、自動運転、拡張現実/仮想現実（AR/VR）、航空機などのさまざまな分野で人気が高まっている。
VIOはドリフトを蓄積しやすく、グローバルな位置とヨーに対応する4つの観測不可能な方向があるため、グローバルなローカリゼーションを提供できない。
GNSS測定値は、利用可能な場合、グローバルフレーム内で絶対測定値を提供できるため、VIOドリフトを修正するために活用できる。
課題
- VIOとGNSSを融合する従来の疎結合アプローチは、GNSSの解像度に依存しており、追跡される衛星数が少ない状況では情報を提供できない場合が多い。
- VIOとGNSSを融合する従来の密結合アプローチは、計算効率が悪いか、オンラインでのGNSS-IMU外部パラメータの校正をサポートしていない。
提案手法
本論文では、GNSSの生測定値を効率的な平方根フィルタリングフレームワーク内で深く融合する、密結合GNSS-視覚慣性航法システム（GVINS）を提案する。
- 具体的には、擬似距離、ドップラーシフト、単一差分擬似距離、二重差分搬送波位相を含むGNSS生データを、IMUおよびカメラ測定値と、SRI-SWFフレームワーク内で初めて深く融合する。
- リファレンスフレームとVIOフレーム間の変換を逐次的に適応的に収束させる、フィルターベースの初期化アプローチを開発する。
- 遅延および非同期GNSS測定値を使用して状態を更新するために、IMU統合を活用する。
- GNSS-IMU外部パラメータの劣化による悪影響を軽減するために、オンラインGNSS-IMU外部パラメータの校正を実行する。
新規性
- SRI-SWFフレームワーク内で、擬似距離、ドップラーシフト、単一差分擬似距離、二重差分搬送波位相を含むGNSS生データを、IMUおよびカメラ測定値と深く融合した初めての試み。
- フィルターベースの初期化アプローチ、IMU統合による遅延および非同期GNSS測定値を使用した状態更新、オンラインGNSS-IMU外部パラメータの校正。
提案手法の効果
提案手法を、独自のUAVデータセットと公開されているデータセットを用いて評価した。
- 結果は、提案手法がリアルタイムでVIOドリフトを抑制できること、およびオンラインGNSS-IMU外部パラメータの校正の有効性を示している。
- 公開されているデータセットでの実験的検証では、提案手法が、GVINS やInGVIO などの最先端技術と比較して、精度と効率の両方において優れていることが明らかになった。
将来の課題として、ドップラーシフトなどのGNSS生測定値を使用したリファレンスフレーム変換の初期化の支援、SRI-GVINSにおける二重差分あいまいさを解決するためのLAMBDAアルゴリズムの直接的な採用、縮退動作を特定するためのSRI-GVINSの可観測性分析などが挙げられる。

Omnidirectional Dense SLAM for Back-To-Back Fisheye Cameras

背景
- パノラマカメラシステムは、360度のシーン情報をキャプチャできるため、近年注目され、開発が進んでいます。
- Insta360 や GoPro Max などの、背中合わせのデュアルフィッシュアイカメラを使用した360度デバイスは、すでに製品化されています。
- パノラマ画像に基づく研究は、深度予測や SLAM など、大きな進歩を遂げています。
- 予測された360度深度マップとSLAMシステムを組み合わせることで、3次元幾何学的マッピングを実現できます。
- 従来の研究の多くは、オンラインデータストリームではなく、後処理されたパノラマ画像に焦点を当ててきました。
- これらの手法をオンラインフィッシュアイデータストリームに適用することは、特にリソースの限られたデバイスでは依然として困難です。
- 背中合わせのフィッシュアイカメラは、視野の重複が最小限であるため、フィッシュアイベースの深度予測が困難になります。
課題
- オンラインフィッシュアイデータストリームを用いた、リアルタイムで動作する高精度なデンスマッピングを実現することが課題です。
- 特に、背中合わせのデュアルフィッシュアイカメラは視野の重複が最小限であるため、深度予測が困難になります。
- リソースの限られたデバイスでリアルタイムに動作するシステムを開発する必要があります。
提案手法
- 本論文では、背中合わせのデュアルフィッシュアイシステムからのオンラインストリームに基づく、新しいデンスVI-SLAMシステムを提案します。
- このシステムは、バイナリフィッシュアイカメラとIMUからのオンライン入力を取得します。
- フロントエンド追跡モジュールは、フィッシュアイ画像とIMUデータに基づいて、リアルタイムの姿勢推定を実行します。
  - まず、FASTコーナー検出器を使用してコーナーポイントを抽出し、各フィッシュアイ画像でオプティカルフロー追跡にKLTメソッドを使用します。
  - 追跡された特徴は、フィッシュアイ画像座標から正規化画像座標に変換されます。
  - フィッシュアイ画像の歪みを考慮し、追跡された各スパースポイントの位置に基づいて異なる重みを割り当てます。
- フロントエンドモジュールによって生成されたキーフレームとローカル点群は、バックエンドデンスマッピングに使用されます。
  - バックエンドモジュールは、以下の3つの主要なステップで構成されます。
    - まず、外部パラメータと内部パラメータに基づいて、2つのフィッシュアイ画像をERP画像にステッチします。
    - 次に、このステッチされたERP画像とローカルスパース点群をネットワークへの入力として使用します。ネットワークは、複数の深度ベースと信頼度を予測します。
    - 最後に、深度の一貫性をさらに高めるために、深度ベースの重みと信頼度をウィンドウの最適化に組み込みます。
- パノラマSLAMシステム向けに調整された、軽量の深度補完ネットワークを提案します。
  - ネットワークは、スパースポイント（SLAMシステムによって生成された）とパノラマ画像を入力として受け取り、深度ベースと信頼度を予測します。最終的な深度情報は、深度ベースの線形結合によって取得されます。
- 複数の深度ベースの表現を活用することで、深度ベースの重みをSLAMの従来の最適化に組み込み、パノラマ深度の継続的な改良を実現します。
  - 具体的には、深度の最適化に、相対深度因子、スパース深度因子、事前重み因子を採用します。
新規性
- 背中合わせのデュアルフィッシュアイ構成に基づく、新しいリアルタイムデンスビジュアル慣性SLAMシステムを提案。
- パノラマSLAMシステム向けに調整された、軽量の深度補完ネットワークを提案。
- 複数の深度ベースの表現を活用することで、SLAMの従来の最適化に深度ベースの重みを組み込み、パノラマ深度の継続的な改良を実現。
提案手法の効果
- シミュレーションおよび現実世界のデータセットを用いた実験: 提案手法が、深度予測と3D再構成の点でSOTA手法よりも優れていることを示しました。
  - 比較対象: Bifuse, Uni-Fuse, PanoFormer, HDRFuse
- モバイルデバイス（Mi9）上でのオンラインデモ: 提案手法の効率性を検証しました。
  - 比較対象: 過去の深度予測手法
  - 結果: 提案手法は、モバイルプラットフォームに適したリアルタイム性能を実現しました。

Visual Inertial Odometry Using Focal Plane Binary Features (BIT-VIO)

論文
https://arxiv.org/abs/2403.09882
背景
将来のモバイルデバイスでは、高度な空間認識機能が求められるようになると予想され、Visual Odometry (VO) や Visual Inertial Odometry (VIO) の低消費電力化と低遅延化が重要性を増している。
従来のカメラ技術は、一般的に30～60 FPSで動作し、センサーからホストデバイスに大量のデータを転送する必要がある。このようなデータ転送は、電力と遅延の両方の点でコストがかかり、さらに、これらのすべてのピクセルをホストデバイス上で処理する必要がある。
Focal-Plane Sensor-Processor Arrays (FPSP) は、イメージセンサー上で直接ビジョンアルゴリズムを実行できる新しい技術である。従来のカメラとは異なり、FPSPは画像平面上の個々のピクセルで計算を実行するため、低消費電力で高フレームレートの画像処理が可能となり、モバイルロボットに最適である。
SCAMP-5のようなFPSPは、並列処理を使用し、Single Instruction Multiple Data (SIMD) パラダイムに基づいている。
課題
300 FPSで動作するBIT-VOは、高速で機敏なカメラの動きに対してロバストである。しかし、推定された軌道には、focal plane 上の特徴検出のノイズに起因する高周波ノイズが含まれている。
提案手法
BIT-VIO: SCAMP-5を利用した世界初の6-Degrees of Freedom (6-DOF) Visual Inertial Odometry (VIO) アルゴリズム。
- 300 FPSで動作するBIT-VOを拡張し、400 Hzで取得したIMU測定値からの予測を使用して、loosely-coupled sensor-fusion iterated Extended Kalman Filter (iEKF) によって動作および補正を行う。
- バイナリ記述子の計算に画像輝度情報を使用できないため、他のバイナリ記述子とは異なる、コーナー特徴の周囲のローカルバイナリエッジ情報から作成されたBIT記述子 (44ビット長のフィーチャ) を使用するBIT-VOに基づいている。
- BIT-VOの姿勢はバイナリ・エッジベースの記述子抽出、2Dから3Dへの再投影に基づいているため、BIT-VOの姿勢の不確かさ伝播を行う。
新規性
- FPSPを利用した世界初の6-DOF VIOアルゴリズムである。
- 高フレームレート (300 FPS) で動作し、IMU測定値 (400 Hz) を使用して高周波ノイズを除去することで、正確で滑らかな軌跡を提供する。
- バイナリ・エッジベースの記述子抽出と2Dから3Dへの再投影に基づくBIT-VOの姿勢の不確かさ伝播を提供する。
提案手法の効果
提案手法であるBIT-VIOは、モーションキャプチャシステムを用いて得られたground-truthデータと、BIT-VOに対して評価された。
評価には、円形、直線、曲線、ジグザグの軌跡を組み合わせた8つの現実世界の軌跡が使用され、これらは実際のアプリケーションを模倣するように設計されている。
結果は、多くの軌跡において、BIT-VOと比較して、BIT-VIOがATE (Absolute Trajectory Error) において改善を示したことを示している。
さらに、BIT-VOで顕著な高周波ノイズは効果的に除去され、より滑らかな軌跡推定結果が得られた。
コード等
https://sites.google.com/view/bit-vio/home

PL-EVIO: Robust Monocular Event-Based Visual Inertial Odometry with Point and Line Features

論文
https://ieeexplore.ieee.org/document/10287884
背景
- 従来のカメラを用いたVIOシステムは、高速な動きや明暗差の激しい環境下では、モーションブラーやダイナミックレンジの制限により、安定した状態推定が困難である。
- イベントカメラは、固定フレームレートではなく、ピクセルレベルの照度変化を捉えることで、高速な動きや明暗差の激しい環境下でも、安定した視覚情報を提供できる。
- イベントカメラベースのSLAM/VO/VIOの研究の多くは、点ベースの特徴量に依存してきた。
- 人工的な構造物では、線や平面などの規則的な幾何学的形状を持つことが多く、点ベースの特徴量だけでは最適な表現にならない場合があり、自然の風景では点ベースの特徴量の方が一般的である。
課題
- 従来のカメラは、高速な動きや明暗差の激しい環境下では、モーションブラーやダイナミックレンジの制限により、安定した状態推定が困難である。
- イベントカメラは、静止状態など、カメラとシーン間の相対的な動きが制限されている場合、情報量が少なくなりノイズが発生しやすいため、従来のカメラの利点を補完する必要がある。
- 点ベースの特徴量は、人工的な構造物では、線や平面などの規則的な幾何学的形状を持つことが多く、最適な表現にならない場合がある。
提案手法
- イベントカメラ、標準カメラ、IMUのデータを統合した、堅牢なリアルタイムイベントベースVIOフレームワークであるPL-EVIOを提案。
- イベントカメラのイベントストリームから、点ベースの特徴量に加えて、線ベースの特徴量を設計・抽出することで、幾何学的構造情報を補完し、より正確で堅牢な状態推定を実現。
- IMUデータを用いたモーションコンペンセーションアルゴリズムを実装し、各イベントの動きを個々のタイムスタンプに応じて補正することで、回転と並進の動きを同じタイムスタンプに統合。
- イベントベースVIO (EIO) と、イベントと画像ベースVIO (EVIO) の2つのVIOフレームワークを統合。
  - PL-EIO (Event+IMU) : イベントコーナー特徴量、線ベースイベント特徴量を用いた、イベントベースVIO。
  - PL-EVIO (Event+Image+IMU) : イベントコーナー特徴量、線ベースイベント特徴量、点ベース画像特徴量の3種類の特徴量を統合したVIO。
新規性
- 3種類の特徴量 (イベントコーナー特徴量、線ベースイベント特徴量、点ベース画像特徴量) を統合することで、環境の構造に関するより多くの幾何学的制約を提供し、堅牢で信頼性の高い状態推定を実現。
- HDR環境やアグレッシブな動きに対応するために、イベントベースの線ベース特徴量と記述子を設計し、フロントエンドの漸増的な推定に活用。
- イベント、画像、IMU測定値を緊密に融合させた、堅牢で高精度、かつリアルタイムな最適化ベースの単眼イベントベースVIOフレームワークを提案。
提案手法の効果
- 高ダイナミックレンジ環境での評価: 異なる解像度のイベントカメラ (DAVIS346 (346260) および DVXplorer (640480)) を使用し、VICONのグランドトゥルースデータを用いて評価。
  - 比較対象: VINS-MONO, PL-VINS, ORB-SLAM3, Ultimate SLAM (EIO および EVIOバージョン), 従来のEIO
  - 結果: 提案手法は、特にVINS-MONO、PL-VINS、ORB-SLAM3などの画像ベースのVIO/VOが失敗するような、明暗差の激しい環境やアグレッシブな動きがある環境下においても、他の手法と比較して優れた性能を示した。
- アグレッシブな動きにおける評価: 高速でアグレッシブな視覚慣性オドメトリデータセットであるUZH-FPVデータセットを用いて評価。
  - 比較対象: ORB-SLAM3 (ステレオVIO), VINS-Fusion (ステレオVIO), VINS-MONO (単眼VIO), Ultimate SLAM (EVIO)
  - 結果: 提案手法は、高解像度カメラを使用したステレオVIOと比較しても、優れた性能を達成した。
- イベントカメラデータセットでの評価: 公開されているイベントカメラデータセットを用いて、他のEIO手法と比較評価。
  - 比較対象: 過去のEIO手法
  - 結果: 提案手法は、最先端の性能を達成した。
- オンボードテスト: クアッドコプターのフリップ実験を行い、アグレッシブな動きにおける提案手法の性能を評価。
  - 結果: 提案手法は、極端な速度の動きにもかかわらず、クアッドコプターの姿勢を高精度に追跡することに成功した。
- 大規模屋外環境での評価: ループクロージャの評価を行わず、約980mの軌跡 (長さ約160m、幅約100m、高さ変化約10mの領域をカバー) を使用し、Googleマップと位置合わせして評価。
  - 結果: 提案手法は、この長距離の動き評価において、ほぼドリフトフリーで動作した。
コード等
https://www.youtube.com/watch?v=KnWZ4anBMK4

JacobiGPU: GPU-Accelerated Numerical Differentiation for Loop Closure in Visual SLAM

背景
ビジュアルSLAMシステムでは、ループクロージャは、以前に訪問した場所を再訪問したときにドリフトを修正するために重要です。ループクロージャは、通常、計算コストの高いポーズグラフ最適化（PGO）問題として解決され、リアルタイムアプリケーションでは最適化が不可欠です。有限差分法（FDM）は、ヤコビアンを近似するためによく使用されますが、計算量が非常に多く、ポーズグラフ内の同一のポーズの繰り返し摂動が原因で非効率性が生じています。
課題
従来のFDM手法は、ポーズグラフ内の繰り返し摂動により、計算量のオーバーヘッドに悩まされています。各ポーズはポーズグラフ内の複数のエッジに関連付けられており、各エッジに単一の摂動が適用されるため、合計で複数の摂動が発生するためです。この問題は、GPUベースの線形ソルバーの恩恵を受けるのに十分な大きさでも密度でもない、屋外シーケンスのPGOによって生成されたヘッセ行列によってさらに複雑になります。
提案手法
提案手法であるJacobiGPUは、ビジュアルSLAMのループクロージャーにおける数値微分の計算ボトルネックに対処するために、GPUリソースを活用する手法です。JacobiGPUは、従来の手法のように単一の分割手法に従うのではなく、計算タスクに基づいてグラフを分割します。この手法は、各ポーズに対して1次元あたり1回だけ摂動させることで、従来の有限差分法（FDM）の冗長な摂動問題を解決します。具体的には、グラフを頂点ベースで分割し、各頂点を1回だけ調整することで効率化を実現します。
この手法では、GPUのメモリ管理、タスク管理、CPU-GPU間データ転送を考慮して最適化されています。メモリ管理には1次元バッファを採用し、タスク管理にはカーネル起動を最小限に抑える設計を採用しています。また、GPU上でポーズを直接更新することで、反復的なデータ転送を最小限に抑えています。
新規性
- 頂点ベースのグラフ分割: 従来のエッジベースの分割とは異なり、頂点ベースのパーティション分割により、各ポーズは線形化プロセス中に1回だけ摂動され、冗長性が排除され、計算効率が向上します。
- 同時双方向摂動: JacobiGPUは、個別のカーネル起動の必要性をなくし、GPUの使用率を最大化し、メモリアクセスを最適化することにより、単一のカーネル起動内で各ポーズに対して正と負の両方の摂動を同時に実行します。
- GPU上のインプレースポーズ更新: 専用の更新カーネルは、CPUとGPU間のデータ転送の必要性を排除し、反復的な最適化プロセス中の効率をさらに向上させます。
提案手法の効果
JacobiGPUをORB-SLAM3のg2oに統合して評価したところ、EuRoCデータセットとTUM-VIデータセットの両方で、線形化ステップで最大4.23倍、全体的な最適化プロセスで最大2.08倍の高速化が示されました。
提案手法の効果の検証には、EuRoCデータセットとTUM-VIデータセットの12のシーケンスが用いられ、標準のg2oと比較されました。さらに、χ2誤差とSLAM軌道の一貫性を比較して、最適化の他の側面と全体的なSLAMパイプラインの一貫性を示しました。

MAVIS: Multi-Camera Augmented Visual-Inertial SLAM Using SE2(3) Based Exact IMU Pre-Integration

論文
https://arxiv.org/abs/2309.08142
背景
　ロボット工学やコンピュータビジョンにおいて、堅牢でリアルタイムのSLAM (Simultaneous Localization and Mapping) は長年の課題である。
視覚ベースのSLAMソリューションは、LiDARベースのソリューションに比べて堅牢性と精度が不足している場合が多い。
　この問題に対処するために、特にXRデバイスでは、角速度と加速度を測定する低コストなIMUなどの追加センサーが使用される。
　モノキュラーやステレオの視覚慣性ソリューションは、IMU測定値を統合することで、テクスチャのない環境や機敏な動きなどの縮退シナリオにおけるロバスト性を高める可能性を示している。
　しかし、既存の視覚慣性ソリューションは、カメラの視野が限られていること、長時間にわたる特徴追跡の失敗を処理する能力が制限されていることなど、依然として課題に直面している。
課題
　既存のモノキュラーやステレオの視覚慣性ソリューションは、カメラの視野が限られていること、長時間にわたる特徴追跡の失敗を処理する能力が制限されているなどの課題がある。
これらの課題は、IMUを使用している場合でも、システムの急速な発散につながり、測位精度が大幅に低下する可能性がある。
　複数のカメラシステムで構成されるマルチカメラシステムは、広い視野と環境の全方向観測という利点を提供するが、精度、ロバスト性、計算効率のバランスを完全に実現したものはまだない。
　既存のIMU事前統合手法は、キーフレーム間でIMU測定値を事前統合することで、計算効率を向上させるが、IMU測定値間でIMUが回転しないと仮定して位置と速度の不正確な統合に依存しているため、高速回転運動や長い統合時間の場合、事前統合された姿勢の精度に悪影響を及ぼす可能性がある。
提案手法
MAVIS: 複数の部分的に重複するカメラシステム向けに設計された、最先端の最適化ベースの視覚慣性SLAMフレームワーク。
- SE2(3)に基づく正確なIMU事前統合: 高速回転運動や長い統合時間でもIMUデータの正確な統合を保証する、SE2(3)の自己同型の指数関数に基づく新しいIMU事前統合法を導入する。
- マルチカメラシステム用のフロントエンド追跡とバックエンド最適化の拡張: ローカルマップベースのローカリゼーション戦略を採用し、カメラ間とカメラ内の両方で特徴マッチングを実行して、可視関係を強化する。
- 実装の詳細:
  - 視覚測定の前処理: ヒストグラム均等化、フレームドロップと同期問題への対処など、データの前処理を実行する。
  - カメラとIMUの初期化: ステレオ情報とIMU事前統合を使用して、堅牢で正確な初期化を実行する。
  - ループクロージャ: カメラ間とカメラ内の両方からループクロージャ候補を検出し、グローバルバンドル調整を実行する。
新規性
- 部分的に重複するマルチカメラシステム向けに設計された、正確で堅牢な視覚慣性SLAMフレームワークであるMAVISを提案する。
- SE2(3)の自己同型の指数関数に基づく新しいIMU事前統合法を導入し、高速回転運動や長い統合時間における追跡性能を向上させる。
- マルチカメラシステムのフロントエンド追跡とバックエンド最適化モジュールを拡張し、困難なシナリオでのシステム性能を向上させるための実装の詳細を紹介する。
提案手法の効果
　MAVISは、EuRoCデータセットとHilti SLAM Challenge 2023データセットを用いて、精度とロバスト性の点で評価された。
　EuRoCデータセットでは、MAVISは、VINS-MONO、OKVIS、SVOGTSAM、EqVIO、OpenVINS、VINS-FUSION、Kimera、BASALT、ORB-SLAM3などの最先端の手法と比較して、絶対軌跡誤差（RMSE）で評価された。結果は、MAVISがほとんどのシーケンスで非常に競争力のある精度を実現し、多くの場合、最先端の性能を上回ることを示した。
　Hilti SLAM Challenge 2023データセットでは、MAVISは、シングルセッションのビジョン/IMUのみのトラックで2位にランクインしたBAMF-SLAMと、マルチセッショントラックで2位にランクインしたMaplab2.0と比較された。 MAVISは、すべてのビジョン-IMUトラック（シングルセッションとマルチセッションのSLAM）で1位を獲得し、2位と比較して1.7倍のスコアを達成した。

Multi-Robot SLAM

Tight Fusion of Odometry and Kinematic Constraints for Multiple Aerial Vehicles in Physical Interconnection

背景
近年、操縦性に優れていることから航空機は多くの研究者の関心を集めている。しかし、従来の航空機における制御入力不足は、効果的な操作プラットフォームとなることを阻んでた。そこで、複数の航空プラットフォームで構成される統合航空プラットフォーム (IAP) が注目されている。IAPは通常、完全作動型であり、複数の航空機を組み合わせることでペイロードを向上させる可能性を秘めている。これらの利点から、IAP は操作や観測の理想的なプラットフォームとなっている。
複数の航空機の機能を実現するには、それらの正確な位置情報を取得することが最も重要だ。複数の航空機の効率的かつ正確な測位と航法の必要性は、制御アルゴリズムと計画アルゴリズムにとって非常に重要だ。複数の航空機の自己位置推定問題については、オドメトリ、LiDAR、UWBなどを融合させるなど、多くの研究が行われてきた。これらの手法は、航空機間の相互観測を活用し、UWB距離測定値を追加の制約として組み込むことで、マルチ航空機SLAM技術の最適化を目指す。これらの制約を組み込むことで、複数の航空機の測位精度を向上させることができる。
課題
従来のマルチ航空機SLAMとは異なり、IAP内の複数の航空機は相互に接続されている。この相互接続は、自己位置推定の文脈で利用できる可能性を秘めている。ある航空機の姿勢は、接続されている航空機の姿勢と相互に関連している。この情報は、IAP 内の複数の航空機からのオドメトリデータを統合して、自己位置推定の精度を高めるために活用できる。これは、IAP 内の相互接続された複数の航空機が、未知の環境で効果的に連携するために特に重要になる。 IAP の搭載測位・航法システムに物理的制約を組み込むことは、従来の研究では十分に検討されていなかった新しい課題だ。したがって、これは対処すべき、やりがいのある問題となっている。
提案手法
物理的制約を応用した、マルチ航空機オドメトリ技術への新しいアプローチを提案する。具体的には、距離と姿勢速度の制約の事前知識を活用した、IAP のためのオドメトリ融合手法を提案する。 IAP 内の運動学的制約を分析することで、オドメトリとこれらの運動学的制約を緊密に統合する分散型最適化問題を確立する。 IAP の運動学的制約は相対的な姿勢情報のみで構成されているため、自己位置推定の精度をさらに向上させるために、分散型融合と UWB アンカー距離データ融合モジュールを組み合わせる。アンカーからの測距データは、オドメトリに絶対的な情報を提供し、オドメトリのドリフトを抑えることできる。提案手法を実験的に検証するために、2種類のIAPのデータセットを構築した。構築したデータセットを用いて、この組み合わせが自己位置推定の精度を大幅に向上させることを実証する。
- VIRPO (Visual-Inertial-Range-Physical Odometry)
  - 各サブ航空機上で動作し、搭載カメラ、IMU、UWBセンサーデータ、IAPからのデータを利用する。
  - UWB測距データを統合し、IAPの物理的制約をVIRPOに組み込んで、自己位置推定の精度を向上させている。
  - 取得した姿勢、速度、角速度などのデータは、バンドル調整 (BA) 最適化によって処理される。
  - この最適化には、VIRPO フレームワーク内の位置、速度、角速度、UWB残差が含まれる。
  - 各サブ航空機のIMU、ビジュアル入力、物理的制約、UWB測定値からの情報を統合して最適化を行う。
  - 物理的制約として、位置制約、角速度制約、姿勢制約を考慮している。
  - 他の航空機の累積ドリフト誤差を考慮することで、システムのロバスト性を高め、外れ値の影響を軽減する。
新規性
- IAP内の複数の航空機によって誘起される位置、速度、姿勢の制約を分析するための理論的枠組みを提案し、オドメトリの精度を最適化するための対応手法を提案している。
- 提案手法はIAPの自己位置推定品質を向上させており、この枠組みをVIRPOと呼んでいる。
提案手法の効果
- 収集したデータセットを用いて、提案システムの性能を厳密に検証した結果、ベースラインと比較してドリフトが28.7%も大幅に削減された。
- また、実験の結果、様々な物理的制約が有効であることが確認された。
- 提案手法の利点
  - 物理的制約とサブ航空機のステータスを活用して推定を強化することにより、グローバルな自己位置推定精度が向上する。
  - 複数の構成 (SIAP、LIAP、2 つのエージェント LIAP の組み合わせ) で有効性が検証されており、複数構成への汎用性を示している。
  - 位置と姿勢の制約は、速度の制約よりも大きな影響を与える。
  - ドリフト残差項を含めると、他の航空機からのドリフト誤差が軽減されわずかに改善される。

Robust Multi-Robot Global Localization with Unknown Initial Pose Based on Neighbor Constraints

論文
https://arxiv.org/html/2406.19016v1
背景
マルチロボット協調型同時位置推定・地図作成 (SLAM) は、工場の自動化、捜索救助、監視、インテリジェント輸送など、特に大規模環境における様々なロボットアプリケーションにおいて、単一ロボット SLAM に比べて大きな利点を提供する有望なアプローチだ。マルチロボットシステムの分野における基本的な課題は、個々のロボット間でグローバルな位置推定を実現するである。これにより初めて、ロボットは互いに協力するために同じ座標系を共有することができる。このタスクは、ロボットの初期姿勢間の座標変換が不明な場合、特に困難である。
課題
大規模環境における初期姿勢が不明な状態でのマルチロボットグローバル位置推定 (MR-GL) は、困難な作業だ。重要なのは、異なるロボットの視点間のデータの関連付けである。そのため、従来の外観ベースの位置推定手法は使用できない。最近の研究では、オブジェクトの意味的な不変性を利用して、この問題に対処するための意味グラフを生成している。しかし、従来の研究ではロバスト性に欠け、地図の重複率に敏感であるため、実環境では予測不可能なパフォーマンスに陥っていた。
提案手法
システムのロバスト性を向上させるために、近傍制約に基づくデータ関連付けアルゴリズムを提案する。図2に、提案するアプローチの全体的なアーキテクチャを示す。各ロボットの3次元意味グラフは、まず、意味フレーム、深度フレーム、および姿勢から構築される。次に、各ノードの記述子が抽出され、近似グラフマッチングを実現する。次に、2つのグラフの記述子を比較することで、2つのグラフが照合される。具体的には、近傍制約を用いて予備的な棄却を行う。最後に、修正された一致対応を用いて、2台のロボットがグローバルな位置推定を実現する。
新規性
システムのロバスト性を向上させるために、近傍制約に基づくデータ関連付けアルゴリズムを提案した点。
提案手法の効果
提案手法の有効性は、3つの異なるデータセットで実証されており、従来の手法と比較してロバスト性が大幅に向上していることが示された。例として、課題となるタスクの例を図1に示す。このタスクでは、各グラフには約1300個のノードがあり、多くの反復的なシナリオが存在する。この図は、従来の手法と提案手法の最悪のローカリゼーション条件を示している。従来の手法では、9%の確率で失敗する (変換誤差が20m以上) という結果になる。

Swarm-SLAM: Sparse Decentralized Collaborative Simultaneous Localization and Mapping Framework for Multi-Robot Systems

論文
https://arxiv.org/abs/2301.06230
背景
協調型同時位置推定・地図作成（C-SLAM）は、屋内、地下、水中など、外部測位システムのない環境で、複数ロボットが連携して動作するために不可欠な要素である。従来のC-SLAMシステムは、中央集権型と分散型の2つのカテゴリに分類さる。中央集権型システムは、リモートの基地局にすべてのロボットの地図データを集約し、グローバルなSLAM推定を計算する。しかし、これらのシステムではロボットは基地局との信頼性の高い常時接続を必要とし中央サーバーとの通信ボトルネックによってスケーラビリティが著しく制限される。このような厳しいネットワーク制約は、特に大規模な環境では非現実的なことが多くロボット間で不定期に通信を行うだけで中央集権的な管理を必要としない分散型アプローチが適している。
課題
分散型システムは、ロボットのオンボード計算能力と通信能力によって制限され、正確なSLAM推定値を得るためにはより洗練されたデータ管理と記録戦略が必要になる。大規模なロボットチーム、あるいはロボットの群れが、それぞれのローカルマップを結合またはマージして環境の共有されたグローバルな理解を形成するには、リソース、特に通信と計算の制限に対処する必要がある。
提案手法
Swarm-SLAMは、群ロボットの重要な特性であるスケーラビリティ、柔軟性、非集中化、スパース性を備えたオープンソースのC-SLAMシステムである。このフレームワークは、LiDAR、ステレオカメラ、RGB-Dカメラなど、さまざまな種類のセンサーをサポートし、従来の技術よりも大幅に少ない通信量を実現する。 Swarm-SLAMは3つのモジュールで構成されている。
- ネイバー管理モジュール: どのロボットが通信範囲内にあるか（つまり、確実に到達できるネイバー）、およびどのデータが交換されたかを継続的に追跡する。このモジュールにより、スケーラブルな運用が可能になる。
- フロントエンド: オドメトリ推定値と同期されたセンサーデータを入力として受け取る。入力を受け取ると、フロントエンドはセンサーデータから特徴を抽出し、データの関連付けを行う。グローバルマッチングとローカルマッチングの2段階のアプローチを採用している。グローバルマッチングでは、コンパクトな記述子をセンサーデータから抽出し、隣接するロボットにブロードキャストする。ローカルマッチングではグローバルマッチングで生成された候補の場所認識マッチをローカル機能を使用して検証する。
- バックエンド: フロントエンドからのロボット内およびロボット間のループクロージャー測定値を、オドメトリ測定値と組み合わせてポーズグラフにまとめる。ローカルポーズグラフは、ネイバー管理ネゴシエーションを通じて選択されたロボットに送信され最適化が実行され結果の推定値がそれぞれのロボットに返送される。
新規性
Swarm-SLAMは、代数的連結性の最大化に基づく通信制約下でのスパースなバジェット化されたロボット間ループクロージャ検出アルゴリズムを導入することでデータ交換を削減する。この場所認識マッチの前処理により、正確なC-SLAM推定をより速くより少ない通信リソースで実現できる。
提案手法の効果
- 5つの異なるデータセットと、アドホックネットワークを通じて通信する3台のロボットによる実世界の環境での実験で評価した。
- Swarm-SLAMの結果の推定値は、4つの異なるランデブー（ロボットのサブセットが互いに通信範囲内にある状態）から得られたKITTI360 09シーケンスで示されている。
- アンカー選択スキームにより、最低参照フレームIDを持つロボットから現在の最初のポーズ推定値を選択することで、ロボットチーム間でグローバル参照フレームを伝播できる。
- 分散型アプローチは、隣接するロボット間のローカルな相互作用のみに依存することで、システムのスケーラビリティを向上させている。
コードなど
https://github.com/MISTLab/Swarm-SLAM

AutoFusion: Autonomous Visual Geolocation and Online Dense Reconstruction for UAV Cluster

背景
地質調査、都市計画、文化財保護、環境モニタリングなどの分野において、センサーを搭載した無人航空機（UAV）による高精度3次元復元は重要な技術となっている。この技術は、UAVによって収集された航空画像データを利用し画像処理とコンピュータビジョン技術を用いて地表や建物などの対象物の高精度3次元復元を実現する。
大規模な地形復元作業においては、単一のUAVの能力には限界があるため、複数UAVの協調運用が効率的にミッションを完了しパフォーマンスを向上させることができる。複数UAVによる協調復元の基礎として各UAVが独自のSLAMシステムを運用するが、統一された融合地図を作成するには異なるUAVによって撮影された航空画像間の高精度な位置情報が必要となる。
課題
従来の複数UAV SLAMフレームワークの多くは、屋内または比較的小規模な屋外シーンに限定されており、大規模な高高度シナリオでの地図作成は困難であった。これらのフレームワークでは、地図融合を完了するためにUAV間の相対的な変換を必要とするため、UAVがグローバルな地理的位置を失った場合やUAV間の画像の類似性が低い場合には機能しない。
提案手法
AutoFusionは、複数UAVに対応したリアルタイム高密度復元システムであり、グローバル測位が失われたシナリオや可視性が低いシナリオにも堅牢に対応する。
- *Visual Geolocation and Matching Network (VGMN): 画像のみから地理的位置情報を取得できるグラフ畳み込みニューラルネットワークを特徴抽出器として構築することで、画像検索とマッチングの方法として機能し、UAV間の共視画像のランク付けを行う。
- マルチエージェント重み付きバンドル調整（BA）最適化: 各UAVが独自のSLAMシステムをエージェントとして動作させ、画像情報を地上サーバーに送信し、地上サーバーがVGMNを使用してデータ処理を行い、初期化、ポーズグラフの最適化、地図の融合を含む、マルチエージェントの地理的位置の最適化を行う。地理的位置情報は、SLAMの相対的な姿勢と組み合わせて、バックエンドのポーズグラフの最適化にも使用される。
新規性
- 画像からUAVの地理的位置を取得し、類似画像間の共視性をマッチングできる、視覚的な地理的位置特定とマッチングネットワーク手法
- 各UAVがSLAMを動作させ、地上サーバーがマルチエージェント重み付き地理的位置最適化と地図融合を行う、マルチUAV協調高密度復元システム
- マルチUAVリアルタイム高密度復元を効果的に評価するために設計された、3つの大規模航空データセットコレクション
提案手法の効果
提案システムは、未知のシーンにおける高密度復元のロバスト性と、ローカリゼーションの精度を効果的に向上させることが実証された。 3つの大規模な航空データセット（npuchangan、npuyouyi、famensi）を用いた実験では、AutoFusionは、高精度な高密度点群マップをリアルタイムで効率的かつ安定的に構築できることが示された。 1500m×2000mの復元エリア内では、高密度復元結果の平均誤差は、実際のスケールの0.31%未満であった。さらに、このシステムは最大10台のロボットが参加するSLAMタスクにおいて、優れた能力を発揮することが実証されており、群れをなすミッションにおける有効性が示されている。

CoLRIO: LiDAR-Ranging-Inertial Centralized State Estimation for Robotic Swarms

論文
https://github.com/PengYu-Team/Co-LRIO
背景
自律型ロボット群は、探査、点検、捜索救助、医療、家事、物流など、様々な公共用途で注目を集めている。これらの用途では、フィードバック制御、障害物回避、経路計画の基礎となる、個々のロボットの6自由度状態の正確な推定が不可欠である。単一ロボットシステムの状態推定とマッピングは、Visual Inertial Odometry (VIO) やLiDAR Inertial Odometry (LIO)などの最先端のSLAM技術を活用できるが、ロボット群の協調ローカリゼーションへの移行は、オンボードセンサーと群内通信に依存するため、独自の複雑さを伴う。
課題
ロボット群の協調ローカリゼーションは、オンボードセンサーと群内通信に依存するため、単一ロボットシステムのSLAM技術をそのまま適用することが困難である。特に、GPSが使用できない環境ではロボット間の相対的な位置推定の精度と信頼性を確保することが課題となる。
提案手法
CoLRIOは、LiDAR、IMU、UWBセンサーを搭載したロボットチーム向けに調整された、リアルタイムかつ堅牢な中央集中型状態推定システムであり、アンカーを配置せずに協調ローカリゼーションを可能にする。
- 各ロボットは、強度支援高速GICP法を用いた直接LIOを使用して、効率的なスキャンツーマップレジストレーションを実行する。この方法では、LiDARスキャンの特徴点を抽出する代わりに、LiDAR点群の強度情報を利用して直接的にマップとの位置合わせを行う。これにより、特徴点抽出の計算コストを削減し、リアルタイム性を向上させている。
- 中央サーバーは、ペアワイズ距離測定値を収集し、ロボット間のループクロージャー検出を行い、堅牢な共同最適化を実行しその後、最適化された姿勢をフィードバックとしてロボットに提供する。中央サーバーは、各ロボットから送信されたキーフレーム記述子のグローバルデータベースを維持し、ロボット間のループ検出を可能にする。新しいループクロージャーは、データベースで最近傍候補をクエリすることで検出され、候補はFast-GICPを使用してスキャンツーマップマッチングが行われます。ループクロージャーの検出には、グローバル記述子Scan-Context++を使用する。
- さらに、システムの堅牢性と信頼性を高めるために、ペアワイズ整合性測定セット最大化（PCM）とGNCの2つの外れ値除去メカニズムが組み込まれている。PCMは、他のオドメトリとの整合性について、ロボット間のループクロージャーを精査する。一方、GNCはLevenberg-Marquardtと連携して、外れ値に強い因子グラフの最適化を実行し軌跡の推定値を提供しPCMによって拒否されなかったロボット間（ループと距離）の測定値に対してインライヤー/アウトライヤーの判定を行う。 PCMとGNCはどちらもGTSAMライブラリを使用して実装されている。
新規性
- CoLRIOは、ロボット群向けにアンカーを配置せずに協調ローカリゼーションを可能にする、オンラインで堅牢かつ集中型のLiDAR測距慣性状態推定システム。
- 提案されたフレームワークは、データセットとシミュレーションにおいてパフォーマンス、通信、スケーラビリティを含めて広範囲に評価されている。
提案手法の効果
提案システムは、協調SLAM推定の精度、特に大規模なマルチエージェントミッションにおいて、その精度と堅牢性を大幅に向上させることが実証された。実際、最大10台のロボットがシステムに同時に貢献する環境でその有効性が実証されている。
- 公開されているデータセットと独自に作成したデータセットの両方を使用した広範な評価により、協調SLAM推定の精度が大幅に向上することが実証された。
- 提案システムは、大規模ミッションにおいても優れた能力を発揮し、10台のロボットがSLAMタスクを連携して効率的に実行できるようになる。例として、リングや円柱の障害物が設置されたエリア内で10台のドローンを飛行させるシミュレーションでは、CoLRIOは距離測定を使用した場合に平均0.23mのATEを達成した。距離測定を使用しない場合は0.32mのATEを記録した。この実験結果は、提案されたCoLRIOフレームワークをある程度の規模のロボット群に拡張できることを示しています。
コードなど
https://github.com/PengYu-Team/Co-LRIO

Relative Localization Estimation for Multiple Robots Via the Rotating Ultra-Wideband Tag

論文
https://ieeexplore.ieee.org/document/10137880
背景
マルチロボットシステムは、その物理的に分散した性質により単一のロボットでは達成できないタスクを実行できる。分散アルゴリズムを実装する上での主な障害は、ロボットの相対的な位置を取得することである。ほとんどのローカリゼーション手法は、外部アンカーに依存するものと、オンボードセンサーのみに依存するものの2つのカテゴリに分類できる。
課題
従来の相対位置推定手法は、外部アンカーへの依存、複数のタグの必要性、相対運動への依存などの課題があった。外部アンカーに依存する手法は多くの場合、アンカー間の相対位置の自動キャリブレーションを初期設定として実行するために中央ノードを実行する必要があり、費用がかかり、作業領域が制限され、GNSSが使用できない環境では使用できない場合がある。オンボードのカメラベースのローカリゼーション手法は、オクルージョン、視野の制限、有効距離の短さに悩まされることがよくある。複数のUWBタグを1台のロボットに取り付ける必要がある手法は費用がかかり、有効距離が制限され、タグ間のオクルージョンが発生する可能性がある。単一距離測定値と速度情報のみを使用する手法では、持続的励起条件が満たされている場合、相対位置が観測可能であり、ロボットは相対位置を推定するために相対運動を維持する必要があるが、マルチロボットシステムのロボットは多くの場合、固定編成を維持する必要があり互いに相対運動がない。
提案手法
回転するUWBタグに基づいて、ロボットが相対運動をしているか静止しているかに関係なく、すべての隣接ロボットの相対位置を推定できるようにする相対位置推定手法を提案する。
- 回転UWBタグ: 持続的励起条件を提供するために、回転するUWBタグデバイスを設計した。固定長のロッドはブラシレスモーターのスピンドルに取り付けられ、駆動され、ロッドのもう一方の端にはUWBタグが取り付けられており、タグがモーターの中心の周りを回転できる。この設計により、各ロボットに1つのUWBタグのみを取り付けることができる。リーダーロボットは回転タグを取り付ける必要があるが、フォロワーロボットは固定タグで十分。
- 推定アルゴリズム: 単一測距測定とロボットの速度に基づいてロボットの相対位置を分散型推定するための2つのアルゴリズムを開発した。アルゴリズム1は、クラスタ内のリーダーとフォロワー間の相対位置の推定に使用する。アルゴリズム2は、異なるクラスタのリーダー間の相対位置の推定に使用する。
新規性
- 回転するUWBタグの使用により、ロボットが相対運動をしているか静止しているかに関係なく、相対位置推定が可能になる。
- この手法では、ロボット1台につき1つのUWBタグのみを取り付ける必要があるため、ローカリゼーションシステムのコストを削減できる。
- 提案されたアルゴリズムは、理想的なケースでは指数関数的に収束することが証明されている。
- タグの高さの差、ロッドの長さ、回転速度、忘却係数、ノイズレベルが推定に与える影響が分析されている。
提案手法の効果
- シミュレーションと実験により、提案手法の理論的裏付けと有効性が検証された。
- 結果は、提案されたローカリゼーションスキームが小さなロボットを含むシナリオでは、マルチタグスキームよりも優れており、提案されたアルゴリズムもEKFアルゴリズムよりも効果的であることを示している。
- 提案されたアルゴリズムは、さまざまなシナリオでテストされており、異なるロボットの動きや回転タグの構成で正確な相対位置推定を達成している。

Asynchronous Multiple LiDAR-Inertial Odometry Using Point-Wise Inter-LiDAR Uncertainty Propagation

論文
https://ieeexplore.ieee.org/document/10138602
背景
近年、複数のLiDAR（Light Detection and Ranging）システムは、視野（FOV）の増加による精度と安定性の向上により人気が高まっている。従来のLiDARシステムは単一のLiDARを使用していますが、FOVの制限やオクルージョンにより、複数のLiDARの必要性が高まっている。
課題
複数のLiDARを統合する際には、時間的および空間的な差異が課題となる。
- 同期の問題: 複数のセンサー間で厳密な時間同期を確保し、すべての測定値を同時に取得して容易に統合することが理想的である。しかし、すべてのメーカーがPPS（Pulse per Second）やPTP（Precision Time Protocol）などの同期方法をサポートしているわけではなく、センサーの組み合わせが制限される可能性がある。
- 空間的差異の問題: 異なるスキャンパターンやLiDAR間のFOVの違いにより、空間的な差異が生じる。これにより、時間的な差異を克服するためのスキャンマッチングが困難になる。特に、反復性のないスキャンパターンや傾斜して設置された回転パターンでは、センサー間の重複領域が少なくなる可能性がある。
- 不確かさの伝播の問題: 時間的および空間的な差異により、センサー間で点を投影する際に、曖昧さが蓄積される。この曖昧さを適切にモデル化し、複数のLiDAR間で伝達される曖昧さを捉える必要がある。
提案手法
上記のようなマルチLiDARシステムの課題に対処するため、非同期マルチLiDAR慣性オドメトリフレームワークを提案する。
- 時間的差異の補正: IMU（慣性計測装置）の離散モデルとBスプライン補間を用いることで、複数のLiDAR間の時間的差異を軽減する。これにより、FOVの違いが大きい場合でも、LiDAR間スキャンを整合させることができる。
- ポイント単位の不確かさ伝播: IMUの取得時間とセンサーからの点距離に基づいて、ポイント単位の不確かさを伝播する方法を提案している。これにより、時間経過に伴うIMU離散モデルエラーの曖昧さと、振動により距離とともに増加するノイズの影響に対処し、精度が向上する。
- ローカリゼーション重み: トンネルや狭い廊下などの困難な環境でのパフォーマンスを向上させるために、ローカリゼーション重みを導入している。
- 効率的な処理: 大量のポイントを効率的に処理するために、ikd-Treeと反復誤差状態カルマンフィルター（IESKF）を使用している。
新規性
- ポイント単位の不確かさ評価: 従来の手法ではすべてのポイントに同じ不確かさを仮定していましたが、本手法ではポイントのサンプリング時間に応じて不確かさを区別している。これにより、各ポイントに関連するより正確な不確かさモデリングが可能になる。
- プライマリセンサー指定の不要化: 従来の手法では、外部共分散がセカンダリLiDARでのみ結合されるため、セカンダリLiDARの共分散は常にプライマリLiDARの共分散よりも高くなっていた。本手法ではプライマリを明示的に指定することなく、LiDARとIMU間の外部共分散を利用するため、すべての共分散が外部共分散と同様に組み合わされる。その結果、共分散は外部共分散から等しく影響を受ける。
- LiDARフレームでの不確かさの伝播: 従来の手法ではグローバルフレームで不確かさが伝播されていたが、本手法ではLiDARフレームに限定することで、ポイント単位で不確かさを伝播する。このことにより、個々のLiDARポイントを融合する際に生じる不確かさを考慮している。
提案手法の効果
- 高精度化: 提案手法は、公開されているデータセットと独自のデータセットの両方で検証され、従来の手法と比較して、精度とロバスト性の点で優れていることが実証されている。特に、Hilti SLAM Dataset 2021では、すべてのシーケンスにおいて最も正確な結果が得られています。
- ロバスト性の向上: 提案されたポイントレベルの不確かさは、距離とポイントの取得時間によって引き起こされる曖昧さの増加を捉えるため、距離が遠く、時間の経過とともに曖昧さが増すポイントに対して、より大きな不確かさを割り当てることができる。これにより、不確かさをより一般的に処理できる。
- リアルタイム処理: 提案手法は、マルチLiDARシステムであってもリアルタイム性能を完全にサポートしている。
- 柔軟性: 提案手法は、さまざまなメーカーの異なるスキャンパターンを持つLiDARの組み合わせにも対応可能である。
コードなど
https://github.com/minwoo0611/MA-LIO

AutoMerge: A Framework for Map Assembling and Smoothing in City-Scale Environments

論文
https://ieeexplore.ieee.org/document/10203034
背景
自動運転技術の進歩と地理空間情報への依存の高まりにより、高精度な地図作成は、その正確性だけでなく、柔軟な構築方法も求められるようになっている。
課題
従来の大規模3D地図作成手法は、主に高価な地図作成機器に依存しており、都市規模の地図作成には時間がかかり、正確なGPS支援なしでは誤ったデータの関連付けに対して脆弱であるという課題があった。具体的には、以下の点が挙げられる。
- 多くの手法は、失敗したマッチングに非常に敏感である。セグメント間のデータ関連付けにわずかな誤りがあるだけでも、グローバルマップの最適化が不適切な問題になる可能性がある。
- 従来の地図結合手法は、適切な初期化と正確なオドメトリ推定に依存している。
- 単一のエージェントが領域を再訪する場合や、事前知識を持たないマルチエージェントシステムの場合、従来の研究では、単一のフレームに基づいて一致を見つけ、ユークリッド制約によって誤った一致を除外するためにRANSACを使用していた。しかし、このような手法は上記の両方のシナリオで保証することが難しい、固有の領域の識別能力に大きく依存している。
- 視点の違いや不完全な観測によって、同じ領域に対する3D表現に差異が生じる可能性があり、従来の記述子はこのようなシナリオの影響を受けやすい。
提案手法
上記のような制限事項を克服した、大規模地図を結合するための新しいフレームワークであるAutoMergeを提案する。AutoMergeは、視点不変の場所認識、不正確なループクロージャーの識別と破棄、大規模で多数の地図セグメントの効率的な関連付けと最適化を実現する。
- AutoMergeの主な構成要素は以下のとおり
  - 融合に基づいて強化された記述子の抽出: 複数の視点からの情報を融合することで、視点の変化に対してロバストな場所記述子を生成する。 AutoMergeは、PointNetVLADの考え方を採用し、球面投影とマルチパースペクティブフュージョンを組み合わせた新しいマルチパースペクティブフュージョンベースのアプローチを開発し、3D場所記述子を実現している。
  - ポイントベースの機能抽出: ローカルな密な地図からポイントセットを抽出し、PointNetを使用してローカルな特徴を抽出する。次に、NetVLAD層を使用して、ローカルなポイント特徴を集約することで、グローバル記述子を取得し、さらに全結合層を通過させてコンパクトな記述子にする。
  - 球面ベースの特徴抽出: ローカルな密なマップを球面表現に変換し、回転に不変な記述子を生成する。これは、球面調和関数を特徴ベクトルとして使用しNetVLADを用いて集約することで実現される。
  - 注意機構を用いた特徴融合: ポイントベースと球面ベースの2つのブランチからの特徴を、注意機構を用いて融合する。これにより、各ブランチの特徴の重要度を動的に調整することが可能となります。具体的には、自己注意層と相互注意層を用いて各ブランチ内の特徴とブランチ間の特徴の関連性を学習する。
  - 適応型ループクロージャー検出: シーケンスマッチングと幾何学的制約を用いて、高精度なループクロージャーを検出する。これにより、誤ったループクロージャーを効果的に排除し大規模な結合における外れ値を大幅に削減する。
  - 部分的に分散化されたシステム: 各エージェントは、ローカルな地図と記述子を生成しサーバーに送信する。サーバーは、受信した情報に基づいて、グローバルな地図を構築し、各エージェントに最適化された位置を送信する。
  - 粗マージ: AutoMergeは、ペアの場所記述子と各エージェントのエゴモーションを使用して、ループクロージャの機会（高精度と再現率）を活用して修正する。このハイブリッドループクロージャ検出手法を用いて、AutoMergeは大まかな集中型グローバルマップの最適化を実行する。
  - 段階的マージ: AutoMergeは、スペクトラルクラスタリング手法を用いて、異なる軌道を異なるサブグループに適応的にマージする。これにより、各サブグループ内の軌道が適切に接続され、異なるサブグループ間に誤ったマッチングが構築されないようにする。
  - 精密化マージ: 更新されたグラフに基づいて、AutoMergeはAM内の各サブグラフに対して、標準のバックエンドポーズグラフの最適化（GTSAM）を適用する。最適化された位置は、グローバルポーズの推定のために、すべてのアシスタントに送り返する。
新規性
- 初期座標推定を必要とせずに都市規模の環境でセグメントをマージできるフレームワークを提供: このフレームワークを使用することで、相対的な視点の差異や時間的な差異に影響されない、マルチエージェントによる地図結合が可能になる。
- 注意機構を用いたマルチビュープロジェクションベース記述子の導入: 翻訳の差異に対するロバスト性を向上させるポイントベースのブランチと、回転の差異に対するロバスト性を実現するスフィアベースのブランチを組み合わせ、最後に2つのブランチ間でディープフュージョン機構を採用し、個々のブランチとジョイントブランチを同時に強化する。
- 適応型ループクロージャー検出モジュールの設計: 再現率が高く、誤検出率の低い場所検索を実現し、大規模なマージの際に繰り返し出現する環境における外れ値を大幅に削減する。
- 単一エージェントおよびマルチエージェントシステムの増分マップ結合: この手順は、時間領域および空間領域における異なるエージェントからのデータストリーミングの順序や、同じ領域への再訪問時間に依存しない。
提案手法の効果
- セグメント検索において、それぞれ2番目と3番目に優れた手法を0.9％と6.5％上回る再現率を達成。
- 120kmの大規模地図アセンブリで、従来の手法と同等の3D地図作成精度を達成。
- 時間的に間隔を空けた再訪に対してロバスト。
コードなど
https://github.com/MetaSLAM/AutoMerge_Docker

SACSoN: Scalable Autonomous Control for Social Navigation

論文
https://arxiv.org/abs/2306.01874
背景
人間とロボットが同じ空間を共有する機会が増加するにつれて、社会的規範に準拠したロボットのナビゲーションシステムの必要性が高まっている。従来のロボットナビゲーションシステムは、主に障害物の回避に焦点を当てており、人間の行動の複雑さを考慮していなかった。
課題
人間とロボットの社会的ナビゲーションを実現するにはいくつかの課題がある。
- 人間の行動のモデリングの難しさ: 人間の行動は、非言語的な合図や暗黙の了解に依存する複雑なものであり、これを明示的にモデル化することは困難である。
- 従来のデータセットの限界: 従来のロボットナビゲーションデータセットの多くは、手動操作で収集されたものであり、人間の行動との自然な相互作用を捉えきれていない。また、スクリプト化されたポリシーで収集されたデータセットは、多様性に欠ける傾向がある。
- 社会的コンプライアンスの定義の難しさ: ロボットの行動が「社会的に準拠している」かどうかを客観的に評価することは困難である。
提案手法
上記のような課題に対処するため、SACSoN（Scalable Autonomous Control for Social Navigation）と呼ばれる、人間の行動を予測し、それに応じて行動する社会的ナビゲーションのための新しい手法を提案する。
- 反事実的摂動に基づく社会的コンプライアンスの定義: ロボットが人間の空間に侵入しなかった場合、人間は同じように行動したであろうか？この「反事実的摂動」を最小限に抑えることで、人間の自然な行動を妨げないロボットの行動を誘導することができる。
- 予測モデルを用いた制御ポリシーの学習: 人間の将来の軌跡を予測するモデルを用いて、反事実的摂動を最小化するようにロボットの制御ポリシーを学習する。このためには、ロボットの存在下における人間の行動をモデル化できるデータが必要である。
- 自律型データ収集システムHuRoNの開発: 人間の行動を予測するためのモデルを学習するために、人間とロボットの相互作用を豊富に含む大規模なデータセットを収集する必要がある。本論文では、この目的のために、自律型データ収集システムHuRoN (Human-Robot interaction data collection for vision-based Navigation)を開発した。HuRoNは、人間とのインタラクションを促進するように設計されたデータ収集ポリシーを採用しており、時間の経過とともにデータ収集ポリシーを改善することができる。
新規性
- 反事実的摂動に基づく社会的コンプライアンスの定義: 本論文では、ロボットの行動が人間の行動に与える影響を定量化するために、反事実的摂動という新しい概念を導入している。これは、ロボットの行動が人間の自然な行動をどれだけ変化させたかを測定するものである。
- 大規模な人間とロボットの相互作用データセットの構築: 本論文では、HuRoNと呼ばれる、5つの異なるオフィス環境で75時間以上にわたって収集された、4000以上の人間とロボットの相互作用を含む大規模なデータセットを構築している。このデータセットは、人間の行動を予測するためのモデルを学習するために使用される。
提案手法の効果
- 社会的コンプライアンスの向上: 提案手法を用いて学習された制御ポリシーは、人間の行動を予測し、それに応じて行動することで、従来の手法と比較してより社会的に準拠した行動を実現することができる。具体的には、人間との衝突を80%以上削減しパーソナルスペースの侵害を30%以上削減することができた。
- 人間の評価による有効性の確認: ユーザー調査の結果、提案手法を用いて学習された制御ポリシーは、人間から見てより自然で円滑な行動であると評価された。
- 自律的なデータ収集と学習: 提案されたデータ収集システムHuRoNは、自律的に動作し人間との相互作用を豊富に含むデータセットを収集することができる。さらに、HuRoNは時間の経過とともにデータ収集ポリシーを改善することができ、より多くの相互作用データを収集しより正確な予測モデルを学習することができる。
コードなど
https://github.com/NHirose/SACSoN

SLAM I

KDD-LOAM: Jointly Learned Keypoint Detector and Descriptors Assisted LiDAR Odometry and Mapping

論文
https://arxiv.org/abs/2309.15394
背景
点群レジストレーションにおいて、特徴的な3次元特徴量に基づくスパースキーポイントマッチングは、効率性とロバスト性を向上させることが期待されている。
課題
従来の学習ベースの3次元記述子とキーポイント検出器は、独立しているか疎結合であるため相互に完全に適応することができず、レジストレーションの精度が低い。例えば、記述子の学習においてキーポイント検出を考慮していないため、ランダムにサンプリングされた点が特徴の少ない領域に集中し計算効率が低下する。
提案手法
確率的検出損失を用いたマルチタスク完全畳み込みニューラルネットワークに基づく、密結合キーポイント検出器と記述子（TCKDD）を提案する。具体的には、記述子のマッチング可能性に基づいて設計された確率的検出損失を用いることで、キーポイント検出器を任意の記述子に完全に適応させ、特徴的な領域の記述子の学習を促進する。さらに、TCKDDをリアルタイムLiDARオドメトリおよびマッピングフレームワーク（KDD-LOAM）に統合し、キーポイント記述子マッチングベースのRANSACを用いてオドメトリを実現する。
新規性
提案手法の新規性は、確率的検出損失を用いることで、3次元キーポイント検出と記述子の学習を密結合させた点にある。これにより、検出器と記述子が相互に適応し、従来手法よりも高精度かつロバストな点群レジストレーションを実現する。
提案手法の効果
提案手法は、屋内外のデータセットにおいて、点群レジストレーションにおいて最先端の性能を達成した。特に、KITTIデータセットを用いた実験では、従来のLOAMよりも優れたオドメトリ性能を示し、リアルタイム性能を維持しながら、競争力のある性能を実現した。また、メモリ効率の高いマップ表現を採用することで、従来手法と同等の性能を維持しながら、メモリ使用量を削減できることが示された。

Campus Map: A Large-Scale Dataset to Support Multi-View VO, SLAM and BEV Estimation

論文
https://personalpages.surrey.ac.uk/r.bowden/publications/2024/RossICRA2024pp.pdf
背景
自動運転技術の研究を支援するために、多くのデータセットが作成されている。しかし、既存のデータセットの多くは、シーケンスが短くループがなかったり、単一のカメラしか搭載していないなど、さまざまなナビゲーションタスクの評価には適していない場合が多い。
課題
既存データセットは、SLAMやオドメトリ評価に不向きな場合が多く、セマンティックBEVマップの学習に必要な、正確なグランドトゥルースの不足も課題となっている。
提案手法
本論文では、大規模マルチカメラデータセットCampus Mapを提案する。これは、大学キャンパスと駐車場で収集された、ループを含む長期的な軌跡を含むマルチカメラデータセットであり、正確なセマンティックBEVマップの生成のために特別に構築されたシミュレーション環境も提供する。
新規性
シミュレーション環境を用いて現実世界のレイアウトを再現し、デジタルツインから詳細なトップダウンセマンティックマップを生成する、新しいグランドトゥルース生成アプローチを採用している。
提案手法の効果
長期的な軌跡とループにより、SLAM、オドメトリ、ループクロージャアルゴリズムの評価に理想的なデータセットとなっている。また、シミュレーション環境の提供により、研究者はデータセットを特定のニーズに合わせて拡張できるなど、既存のデータセットよりも柔軟性があり、将来性が高い。

DISO: Direct Imaging Sonar Odometry

論文
https://www.aminer.cn/pub/666be0df01d2a3fbfc888eb3/diso-direct-imaging-sonar-odometry
背景
水中環境におけるSLAM技術の進歩において、画像ソナーは重要な役割を果たすが、低解像度と高ノイズといった課題が存在する。
課題
従来の画像ソナーSLAMは、特徴ベースとICPベースのアプローチが主流だが、ソナー画像の質の低さにより特徴マッチングや初期姿勢推定に問題がある
提案手法
音響強度の誤差を最小化する直接法に基づく新しいソナーオドメトリシステム（DISO）を提案する。これは、高勾配音響強度を持つ点群を用いて、フレーム間の相対的な変換を推定する。また、マルチセンサーウィンドウ最適化、データ関連付け戦略、音響強度外れ値除去アルゴリズムを統合している。
新規性
DISOは、従来の幾何情報のみを利用するICPベースの手法と異なり、音響強度情報も活用することで、より正確な姿勢推定を実現する。また、画像の再サンプリングが不要なため計算効率にも優れています。
提案手法の効果
シミュレーションと実世界のデータセットを用いた評価により、DISOは従来のICPベースの手法よりも優れた性能を示し、最先端のソナーオドメトリ性能を達成した。具体的には、並進誤差と回転誤差が大幅に減少した。また、外れ値に対してより高いロバスト性を示した。

CURL-MAP: Continuous Mapping and Positioning with CURL Representation

論文
https://www.roboticsproceedings.org/rss18/p005.pdf
背景
3Dマッピングにおける点群ベースのSLAMシステムでは、計算効率とストレージ効率のために点群をダウンサンプリングすることが多く、マップの解像度と3D形状の詳細が失われるという課題があります。
課題
LiDAR SLAMで用いられる点群データは、大規模な環境では膨大なストレージスペースを必要とします。また、センサーノイズによる累積オドメトリエラーの影響で、正確なマップの構築や更新が困難です。
提案手法
CURL-MAPは、CURL（Continuous and Ultra-compact Representation of LiDAR）を用いた新しいLiDARマッピングとオドメトリのアルゴリズムです。点群データを球面調和係数として符号化し、連続的に変化する密度を持つ3Dマップを再構成します。またICPを用いずに、CURLマップを利用した姿勢推定を行います。
新規性
- 変化する密度で3Dマップを再構成し、ストレージスペースの使用を効率化する、CURLベースのLiDARマッピングおよび測位システムを提案。
- 標準的なICPメソッドを使用せずにLiDARオドメトリを実現する、暗黙的なCURLマップを活用した新しい姿勢推定アルゴリズムを提案。
提案手法の効果
CURL-MAPは、従来の手法と比較して、より正確で詳細な3Dマップを、より少ないストレージスペースで実現します。Newer Collegeデータセットを用いた実験では、提案手法はA-LOAMよりも正確なマップを生成し、マップの解像度と密度を柔軟に調整することができました。また、CURLマップのサイズは固定であるため、点群マップのようにボクセルサイズに応じてストレージサイズが指数関数的に増加することはありません。
コードなど
https://github.com/SenseRoboticsLab/CURL

Degradation Resilient LiDAR-Radar-Inertial Odometry

論文
https://arxiv.org/abs/2403.05332
背景
自律ロボットは、霧、幾何学的に自己相似な環境、塵、霧、煙などの遮蔽物の存在など、様々な過酷な環境下で動作する必要がある。このような環境下では、LiDARなどのセンサーが劣化し、正確なオドメトリ推定が困難になる。
課題
LiDARは、幾何学的自己相似性や遮蔽物の影響を受けやすく、劣化しやすいという課題がある。一方、レーダーはこれらの条件に強いがLiDARよりも精度が低い。そのため、両方のセンサーの利点を生かし欠点を補う堅牢なオドメトリシステムが求められている。
提案手法
DR-LRIO (Degradation Resilient LiDAR-Radar-Inertial Odometry)と呼ばれる、LiDAR、レーダー、IMUを緊密に統合した新しいオドメトリ手法を提案する。この手法では、各センサー情報の個別の因子定式化を用いた、因子グラフベースのウィンドウ平滑化を用いてセンサー融合を実現している。
新規性
LiDARの特徴を直接グラフに統合することで、LiDARが劣化している場合でも、劣化していない軸に沿った情報をグラフに伝達できる点が新規性として挙げられる。これにより、従来の疎結合型の手法と比較して、縮退条件下での誤差の蓄積を軽減できます。
提案手法の効果
実際の飛行ロボットを用いた実験の結果、DR-LRIOは、幾何学的に自己相似な環境や視覚的に遮蔽された環境の両方で動作することが実証された。具体的には、LiDARが劣化しやすいトンネル内では、レーダー情報を活用することで、yawドリフトを抑制できることが確認された。また、LiDARの性能が十分に発揮される環境下では、LiDARベースの手法と同等の性能を達成できることも示された。
コードなど
https://github.com/ntnu-arl/lidar_degeneracy_datasets

Design and Evaluation of a Generic Visual SLAM Framework for Multi Camera Systems

論文
https://arxiv.org/abs/2210.07315
背景
従来のVisual SLAMシステムは、単眼あるいはステレオカメラに設計が限定されており、近年注目されている多眼カメラシステムの恩恵を十分に受けていないという現状がある。
課題
多眼カメラシステムのSLAMにおける課題は、カメラ配置を最大限に活用しセンサーから得られる情報増加を効果的かつ効率的に利用することである。
提案手法
一般化カメラモデルを用いて任意の多眼カメラシステムを単一の撮像装置として表現する、汎用的なスパースVisual SLAMフレームワークを提案する。また、カメラ間の重複視野領域を活用した3次元特徴量の抽出を行い、正確なシーン表現と計算負荷抑制の両立を実現している。
新規性
提案手法の新規性は、ステレオペアを超えた重複視野を持つ多眼カメラシステムに拡張可能な、カメラ構成に依存しない設計にある。具体的には、一般化カメラモデルと、重複視野領域を用いた3次元特徴量抽出を組み合わせている点が挙げられる。
提案手法の効果
提案手法は、従来手法と比較して、精度、ロバスト性、実行時間において優れたパフォーマンスを示した。特に、重複視野を持つカメラシステムにおいて、従来のステレオカメラベースの手法よりも高い精度を実現している。また、動的なオブジェクトが存在する環境においても、ロバストなトラッキングが可能であることが確認された。
コードなど
https://github.com/neufieldrobotics/MultiCamSLAM

Ground-Fusion: A Low-Cost Ground SLAM System Robust to Corner Cases

論文
https://arxiv.org/abs/2402.14308
背景
地上ロボットは、物流、ケータリング、産業生産など、様々な分野で広く活用されています。これらのロボットが屋内外で確実にナビゲートするためには、SLAM技術が不可欠です。
課題
低コストなVIOベースのSLAMシステムは、特定の動作モードにおいて精度が低下する可能性がある。これは観測できない自由度が生じるためである。さらに、既存のSLAMシステムは困難なシナリオにおけるロバスト性に課題があります。
提案手法
Ground-Fusionは、RGB-D画像、慣性計測装置（IMU）、車輪オドメトリ、GNSS信号を因子グラフ内で統合した、堅牢な低コスト地上SLAMシステムである。効率的な初期化のために、静止、視覚、動的の3つの手法を組み合わせた戦略を採用している。さらに、センサーの異常や劣化を検出し適切に処理するメカニズムを開発しシステムの精度を維持している。
新規性
- 複数のセンサー情報を緊密に統合することで、屋内外両方の環境において信頼性の高いローカライズを実現できる、低コストなSLAMシステムを提案。
- センサーフュージョンシステムにおいて発生する可能性のある、視覚障害、車輪の異常、GNSSの劣化などのセンサー故障を検出および処理するための効果的な戦略を提案し、ロバスト性を大幅に向上。
- 困難なコーナーケースに対応する、新しいベンチマークとなるSLAMデータセットを公開。
提案手法の効果
Ground-Fusionは、Openloris-SceneデータセットやGround-Challengeデータセットを用いた実験において、既存の低コストSLAMシステムよりも優れた性能を示した。特に、コーナーケースにおいて、そのロバスト性と精度の向上が実証された。例えば、Ground-Fusionは特徴点が少ない純粋な回転、オクルージョン、車輪の異常、GNSSの劣化など、様々な困難なシナリオにおいて正確なローカリゼーションを維持することができた。
コードなど
https://github.com/SJTU-ViSYS/Ground-Fusion?tab=readme-ov-file

HERO-SLAM: Hybrid Enhanced Robust Optimization of Neural SLAM

論文
https://hero-slam.github.io/
背景
ニューラルSLAM、特にニューラル陰関数表現を用いたものは、近年注目を集めている。これらの手法は、従来のSLAM手法に比べてシーンの構造と外観の詳細な表現を学習できる可能性を秘めている。
課題
ニューラルSLAMは従来手法と比較してロバスト性に課題があり、急激な視点変化やデータが少ない状況では、正確な位置推定とシーン再構成が困難になる場合がある。
提案手法
HERO-SLAMは、ニューラル陰関数と特徴量メトリック最適化を組み合わせた、堅牢性の高い新たなニューラルSLAM手法である。このハイブリッド手法は、多重解像度陰関数を最適化し特徴点、特徴マップ、RGB-Dピクセル間のワープに基づいて計算されるマルチスケールパッチベースの損失を使用して、ハイブリッド特徴量メトリック陰関数を最適化する。
新規性
ニューラルSLAMにおけるロバスト性の向上を目指し、ニューラル陰関数と特徴量メトリック最適化の利点を組み合わせたハイブリッド表現設計
提案手法の効果
Replica、ScanNet、TUM RGB-Dデータセットを用いた実験の結果、HERO-SLAMは、急激な視点変化やスパースなデータ収集を含む、従来手法では困難なシナリオにおいて、特に優れた性能を発揮することが確認された。

SLAM II

ONeK-SLAM: A Robust Object-Level Dense SLAM Based on Joint Neural Radiance Fields and Keypoints

論文
背景
従来のDense Visual SLAM技術は、主に密な再構成に重点を置いてきたが、以前に観測された領域に限定されている。Neural Radiance Fields (NeRF)の登場により、未観測領域を精細にレンダリングできる可能性が示された。しかし、既存のNeRFベースのSLAM手法はオブジェクトレベルのローカリゼーションと再構成に課題があり、動的な環境や照明の変化する環境では困難に直面している。
課題
多くの既存のNeRFベースのSLAM手法は、オブジェクトレベルの情報を十分に活用できていない。シーン内の様々なオブジェクトを単一のNeRFモデルで表現する手法では、オブジェクトレベルの詳細な再構成が困難になる。また、動的なシーンや照明の変化に弱いという課題もある。例えば、NICE-SLAMは階層的なグリッドベースNeRFを用いているが、オブジェクトレベルの粒度で再構成できないという問題がある。
提案手法
本論文では、特徴点とNeRFの両方をオブジェクトレベルで組み合わせることで、高精度なローカリゼーションと詳細なオブジェクトレベルのマッピングを実現する、堅牢なオブジェクトレベルSLAMシステムであるONeK-SLAMを提案する。まず、シーンを個別のオブジェクトにセグメンテーションする。次に、各オブジェクトについて特徴点の再投影誤差とNeRFの測光誤差と深度誤差の両方を用いてオブジェクトレベルの同時姿勢推定を行う。さらに、動的なオブジェクトを排除するために、同時誤差に基づいて動的なオブジェクトを識別し除外する。また、照明の変化に対応するために特徴点の照明不変性を利用した適応的なシーン管理戦略を採用している。
新規性
ONeK-SLAMは、特徴点とNeRFの両方の利点を組み合わせることで、動的なシーンや照明が変化するシーンでも堅牢なオブジェクトレベルのSLAMを実現している。オブジェクトレベルでシーンを分割し、各オブジェクトに対して個別にNeRFモデルを構築することで、詳細な再構成を可能にしている。また、特徴点とNeRFの情報を統合してオブジェクトの姿勢を推定することで、従来の手法よりも正確な姿勢推定を実現している。さらに、オブジェクトレベルの同時誤差を用いて動的なオブジェクトを排除することで、動的な環境におけるロバスト性を向上させている。
提案手法の効果
ONeK-SLAMは、動的オブジェクトと照明の変化を含むReplica、ScanNet、TUM RGB-Dの3つの公開データセットにおいて既存のNeRFベースのSLAM手法よりも優れたローカリゼーションと再構成の性能を実現している。

A Two-Step Nonlinear Factor Sparsification for Scalable Long-Term SLAM Backend

論文
背景
長期的に動作するSLAMシステムでは、環境マップとロボットの軌跡を表現するグラフのサイズが時間の経過とともに増大し計算コストが大きくなってしまう問題がある。従来のポーズグラフベースの手法では、正確な環境地図を得るために必要なランドマーク情報が十分に考慮されていないという課題があった。
課題
長期的なSLAMシステムにおいて、計算コストの増大を抑えつつ正確な位置推定と地図構築を実現することが課題である。特に、ループクロージャーや再位置認識における計算量の増大は深刻である。従来のポーズグラフベースの手法では、ループクロージャー制約が相関を持つため情報が二重計上される問題や相対姿勢因子だけではセンサーによる非線形性の高い制約を十分に表現できない問題があった。
提案手法
本論文では、ポーズとランドマークの両方をグラフで表現し、2段階のスパース化パイプラインによって長期的なSLAMのスケーラビリティ問題に対処する手法を提案する。まず、削除対象のポーズが観測するランドマークのMarkov blanket内でポーズとランドマーク間の制約をポーズ間の制約に変換する。次に、変換後のポーズ間の制約を用いて対象のポーズを周辺のポーズと関係づけることで、削除対象のポーズをランドマークから切り離する。最後に、ポーズ間の制約のみを用いて対象のポーズを削除する。
新規性
従来のスパース化手法ではポーズグラフのみを対象としていましたが、本論文では、ポーズとランドマークの情報を分けて処理することで長期的なSLAM問題に適した新しいスパース化手法を提案する。具体的には、ランドマークを中心としたMarkov blanketとポーズを中心としたMarkov blanketを分けて扱うことで計算量の削減と情報の保持を実現している。
提案手法の効果
シミュレーションと実世界のデータセットを用いた実験により、提案手法が従来手法と比較して計算コストを抑えつつ同等の位置推定精度を達成できることが示されている。また、長期的な運用においても計算コストとメモリ使用量を一定に抑えられることが示されている。

Effectively Detecting Loop Closures Using Point Cloud Density Maps

論文
https://www.ipb.uni-bonn.de/pdfs/gupta2024icra.pdf
背景
センサーオドメトリからのドリフトしている姿勢推定を修正するため、ループクロージャー検出はSLAMシステムにおいて重要な役割を果たしている。近年、LiDARセンサーを用いたループクロージャー検出が多く提案されているが多くの手法は個々のスキャンに依存している。
課題
センサーの視点、スキャンパターン、環境のダイナミクスに不依存な、堅牢で効率的なループクロージャー検出手法が求められている。従来の鳥瞰図投影を用いた手法では、視点変化に弱い標高マップを利用することが多くあった。
提案手法
本論文では、ローカルマップの鳥瞰図密度画像表現を用いたシンプルながらも効果的なループクロージャー検出手法を提案する。まず、ローカルなオドメトリ推定値を用いてローカルマップを生成し、これを鳥瞰図密度画像として表現している。次に、この画像から特徴点を抽出しバイナリツリーデータベースを用いて効率的にマッチングを行う。最後に、RANSACベースの2D剛体アライメントを用いて、検出したループクロージャーの幾何学的検証と相対姿勢の推定を行う。
新規性
ローカルマップの鳥瞰図密度画像表現を用いることで、視点変化やセンサーのスキャンパターンに依存しないロバストなループクロージャー検出を実現した点が新規です。また、密度画像から特徴点を抽出し、バイナリツリーデータベースを用いることで、効率的なループクロージャー検出を実現している。
提案手法の効果
実験の結果、提案手法は様々な環境において、他の最新手法と比較して、高精度かつロバストなループクロージャー検出を実現することが示された。特に、Livox LiDARのように不規則なスキャンパターンを持つセンサーに対しても有効であることが示された。提案手法によって検出されたループクロージャーは、ポーズグラフ最適化に組み込むことで、ドリフトを大幅に削減することも示された。
コードなど
https://github.com/PRBonn/MapClosures?tab=readme-ov-file

LOG-LIO: A LiDAR-Inertial Odometry with Efficient Local Geometric Information Estimation

論文
https://ieeexplore.ieee.org/document/10314726
背景
LiDARベースのSLAMシステムでは、点群の局所的な幾何情報に基づいてLiDARスキャンとマップ間の対応付けを行い相対的な位置姿勢を推定する。この際、従来の手法では正確な局所的な幾何情報を取得するためにkdtreeを用いた近傍点探索やボクセルマップの構築などが行われていたが、これらの処理は計算コストが高くリアルタイム処理のボトルネックとなっていた。
課題
LiDARベースのSLAMシステムにおいて、計算コストを抑えつつ、高精度な自己位置推定と地図構築を実現することが課題である。特に、点群の法線や点の分布といった局所的な幾何情報の推定は、処理に時間がかかりシステム全体の精度と効率性に影響を与えていた。
提案手法
本論文では、LiDARスキャンの構造に着目し効率的な局所的幾何情報の推定手法を提案する。具体的には、LiDARスキャンの各点が属するリングの情報を事前に計算しておくことで、高速な法線推定を可能にするRing FALSという手法を提案する。さらに、マップをボクセル単位で管理し各ボクセル内における点の分布を逐次的に更新することで、効率的かつ正確な点の分布推定を実現している。
新規性
従来のLiDAR-Inertial Odometryシステムでは、リアルタイムに法線と点の分布を同時に推定することはあまり行われていなかった。本論文では、Ring FALSによる高速な法線推定と拡張ikd-treeを用いた効率的な点の分布管理によりこれらの情報をリアルタイムに取得することを可能にした点が新規性として挙げられる。さらに、これらの情報を用いた階層的なデータ関連付けにより従来手法よりも高精度な自己位置推定を実現している。
提案手法の効果
様々な公開データセットを用いた実験により、提案手法であるLOG-LIOが従来手法と比較して計算コストを抑えつつ、同等以上の自己位置推定精度を達成できることが示されている。特に、屋内外を含む様々な環境において高速かつ高精度な自己位置推定を実現できることが示されている。
コードなど
https://github.com/tiev-tongji/LOG-LIO

Radar-Only Odometry and Mapping for Autonomous Vehicles

論文
https://www.ipb.uni-bonn.de/wp-content/papercite-data/pdf/casado-herraez2024icra.pdf
背景
自動運転における自己位置推定と地図作成において、カメラやLiDARの代わりに、より低コストで全天候型のセンサーであるレーダーの使用が期待されている。
課題
レーダーは、出力される点群がまばらでノイズが多いという特性があり、正確な自己位置推定と地図作成が困難である。従来手法では、この問題に対して、レーダー出力をLiDAR点群に似せる、幾何学的モデルで表面反射を特定する、車両速度に基づいて動的オブジェクトとノイズを除去するなどの対策が取られてきた。しかし、これらの手法は外れ値が多い場合やレーダーの視界の大部分が動的オブジェクトによって遮られる場合に限界がある。
提案手法
本論文では、(1)ドップラー速度情報を利用した点対点ICPに基づく3Dレーダーオドメトリ、(2)動的オブジェクトに視界を遮られる状況に強い、定速フィルターとドップラー速度測定に基づく2Dレーダーオドメトリ、(3)得られたマップの精度を高めるためのフィルタリングによるマップ作成、の3つの手法を提案する。
新規性
3Dレーダーオドメトリにおいて、点対点ICPにドップラー速度情報を組み込むことで高精度な自己位置推定を実現した。2Dレーダーオドメトリでは、定速フィルターとドップラー速度測定を用いることで、動的オブジェクトに視界が遮られる状況でもロバストな自己位置推定を可能にした。また、マップ作成においてはフィルタリングによって外れ値を除去しLiDARマップとの高い類似性を持つマップを生成する手法を提案した。
提案手法の効果
提案手法は、既存の手法と比較して、3DレーダーオドメトリにおいてはLiDARに近い精度を達成し、2Dレーダーオドメトリにおいては動的オブジェクトが多い状況でも精度が向上した。マップ作成においても、フィルタリングによりLiDARマップとの類似度が高い、高精度なマップを生成できることが示された。

IPC: Incremental Probabilistic Consensus-Based Consistent Set Maximization for SLAM Backends

論文
https://www.ipb.uni-bonn.de/wp-content/papercite-data/pdf/casado-herraez2024icra.pdf
背景
SLAM (Simultaneous Localization and Mapping) 問題において、ポーズグラフ最適化 (PGO) はペアワイズの相対測定値の集合からポーズ (位置と方向) の集合の初期推定値を絞り込むための手法である。しかし、標準的な最適化手法では1つの外れ値測定値であっても最終的な結果を大きく歪めてしまう可能性がある。
課題
SLAM における従来のPGOは、外れ値測定値の影響を受けやすくその結果、軌跡推定が大きく歪んでしまう可能性がある。堅牢な最適化手法は存在するものの、外れ値の量が多い場合やオンラインでの性能が求められる場合には、効果的な解決策は限られている。
提案手法
本論文では、Incremental Probabilistic Consensus (IPC) と呼ばれる手法を提案する。この手法は、一貫性のある測定値の最大集合を見つけるという組み合わせ問題の解を反復的な方法で近似する。ループクロージャー測定値を受信するたびに、その測定値を含む最小の独立したサブグラフを特定し、そのサブグラフに対してのみ PGO を実行する。このサブグラフの解は、以前に受け入れられた測定値を使用してテストされ、新しい測定値を受け入れるかどうかが決定される。
新規性
IPCは、オンラインで動作するコンセンサスベースの手法であり、一貫性のあるループクロージャー測定値の最大集合の良い近似を段階的に構築できるという点で新規性がある。この手法では、各ループクロージャー測定値の整合性をコンセンサスに基づく手順で評価する。この手順は、問題のサブセットに適用され以前に統合されたすべてのインライヤー測定値が拒否権を持つ。
提案手法の効果
IPC は、外れ値の影響を軽減しながらオンラインで動作するため、標準的なベンチマークにおいていくつかの最先端の手法と比較して同等以上の性能を発揮する。IPCがさまざまなデータセットに対して一貫した結果を示し、パラメータを変更することなく優れた汎化能力を示すことが示されている。
コードなど
https://www.ipb.uni-bonn.de/wp-content/papercite-data/pdf/casado-herraez2024icra.pdf

Generalized Correspondence Matching Via Flexible Hierarchical Refinement and Patch Descriptor Distillation

論文
https://arxiv.org/abs/2403.05388
背景
画像間の対応点マッチングは、ロボット工学やコンピュータビジョンにおいて重要な役割を果たしている。従来の手法やデータ駆動型のアプローチには、複数スケールの特徴抽出に事前学習済みバックボーンネットワークを活用し、階層的 refinement 戦略を活用して対応点を生成する、プラグアンドプレイアルゴリズムへの関心が高まっている。
課題
Deep Feature Matching (DFM) は最先端のプラグアンドプレイ対応点マッチング手法だが、いくつかの制限がある。例えば、入力画像と同じサイズのfeature mapを提供できるVGGなどのバックボーンネットワークに制限があり、また階層的refinementプロセスで事前定義されたしきい値を使用するため、反復的ではあるものの有効な対応が初期段階で除外される可能性がある。
提案手法
本論文では、柔軟な階層的refinementとパッチ記述子のdistillationに基づくGeneralized Correspondence Matching (GCM) を提案する。
- DFMの階層的refinementプロセスで使用される事前定義されたしきい値を、より柔軟な最近傍探索戦略を活用することで省略し、初期段階での反復的ではあるものの有効な対応の除外を防ぐ。
- 画像分類、セマンティックセグメンテーション、ステレオマッチングなど、様々なコンピュータビジョンタスクで事前学習された、様々なバックボーンネットワークに対応できるよう、パッチ記述子を組み込んでる。
- 対応点マッチングの計算量をさらに削減するために、新しいパッチ記述子distillation戦略を提案する。
新規性
本論文の新規性は、従来のDFMの制限に対処するため柔軟な階層的refinement戦略とパッチ記述子のdistillationを導入した点にある。これにより、様々なバックボーンネットワークとの互換性が実現し対応点マッチングの計算量が削減されます。
提案手法の効果
提案手法は、従来の手法や教師あり学習によって学習されたデータ駆動型の手法の両方を凌駕する、最先端の平均マッチング精度を達成した。提案された手法は、画像マッチング、ホモグラフィ推定、姿勢推定を含む様々なタスクにおいて有効性が検証されており、セマンティックセグメンテーションやステレオマッチングなどのロボットの知覚タスク全体で事前学習された、幅広いバックボーンネットワークに対応できることが確認さた。
コードなど
https://github.com/AlexHan5832/GCM

VOOM: Robust Visual Object Odometry and Mapping Using Hierarchical Landmarks

論文
https://arxiv.org/abs/2402.13609
背景
近年、オブジェクト指向の同時 Localization and Mapping (SLAM) は、計算効率を維持しながら高レベルのセマンティック情報を提供できるため注目を集めている。
課題
従来のオブジェクト指向SLAMは、正確なlocalizationとマッピングを実現するためにオブジェクト情報を活用しようとしてきたが、フィーチャベースのvisual SLAMシステムよりも優れた結果を示したものはほとんどなかった。これは、直方体や楕円体のような一般的な粗いオブジェクトモデルが特徴点よりも精度が低いためである。
提案手法
VOOMは、オブジェクト情報をより有効に活用するために、高レベルのオブジェクトと低レベルの点を階層的にランドマークとして使用する。
- 物理オブジェクトの表現に用いられる双対二次曲線に対して、改善された観測モデルと新規のデータ関連付け手法を導入する。
- オブジェクト情報を使用して、特徴点のデータ関連付けを強化しそれに応じてマップを更新する。
- オブジェクトベースの共視性グラフを確立しローカルバンドル調整を実行する。
新規性
本論文の新規性は、双対二次曲線と特徴点の両方をランドマークとして使用した、新しいvisual object odometry and mappingフレームワークを開発した点にある。オブジェクトレベルの情報を全体的なオドメトリとマッピングプロセスに統合することで、従来のオブジェクトベースの手法では十分に活用されていなかったオブジェクト情報を活用し、visual SLAMの結果を向上させている。
提案手法の効果
実験の結果、VOOMは、localizationの点で、ORB-SLAM2などのオブジェクト指向SLAMや特徴点SLAMシステムの両方を凌駕することが示された。提案手法は、ループクロージャーを用いずにORB-SLAM2よりも優れたlocalization精度を達成できることを示した最初のオブジェクト指向SLAMシステムである。
コードなど
https://github.com/yutongwangBIT/VOOM

Lite-SVO: Towards a Lightweight Self-Supervised Semantic Visual Odometry Exploiting Multi-Feature Sharing Architecture

論文
https://www.researchgate.net/publication/382980314_Lite-SVO_Towards_A_Lightweight_Self-Supervised_Semantic_Visual_Odometry_Exploiting_Multi-Feature_Sharing_Architecture
背景
セマンティックビジュアルオドメトリ (SVO) は、従来のVOと比較してより広範囲な応用と優れた性能を提供する。特に、自動運転や無人航空機（UAV）などの分野において、自己教師ありSVOはコストと時間のかかるグランドトゥルースラベルの必要性を効果的に軽減するため注目されている。
課題
自己教師ありSVOでは、セマンティック/深度タスクと姿勢タスク間の特徴表現の不整合性が大きな課題となっている。これは、タスク間の相互作用を阻害し、性能の低下につながる可能性がある。従来の自己教師ありSVOは、この課題に対する効果的な解決策を欠いており問題を見過ごしたり複雑すぎるアーキテクチャを採用したりしていたりする。
提案手法
本論文では、軽量でありながら効率的なマルチ特徴共有アーキテクチャであるLite-SVOを提案する。Lite-SVOは、精度とパフォーマンスを損なうことなくエッジデバイスでの採用を促進する。重要な革新は、セマンティックマップと深度マップを姿勢推定のための入力として統合する新しいマルチ特徴共有アーキテクチャにある。具体的には、深度情報におけるオブジェクト境界の課題に対処するために、深度マップとセマンティックマップの間の相互特徴共有モジュールを提案する。さらに、マルチ特徴共有アーキテクチャの深度とセマンティックの融合表現の劣化を防ぐために、深度マップとセマンティックマップからの補完的な情報を活用できる、シンプルながらも効果的なマルチ特徴共有モジュールを開発した。
新規性
Lite-SVOは、セマンティックマップと深度マップを姿勢推定の入力として融合させることで、シングルストリームアーキテクチャの特徴表現の一致を促進する、新規かつ効率的なマルチ特徴共有アーキテクチャを採用している。また、深度推定におけるオブジェクト境界の曖昧さの課題に対処するために、クロス特徴共有モジュールを導入し空間的な特徴表現を強化している。さらに、姿勢推定における空間情報の重要性を認識し、空間方向のセマンティックおよび深度特徴を抽出し、姿勢デコーダーに融合させるためのマルチ特徴共有モジュールを提案しています。
提案手法の効果
Lite-SVOは、最先位のシングルストリーム手法と比較して少なくとも84.46%高速でありながら、その姿勢精度は約79.83%向上している。KITTIデータセットにおいて優れた精度を示し、AirDOS-Shibuyaデータセットにおいても高い汎化性能を発揮している。特に、精度とモデルの複雑さの両方において最先端の性能を達成している。

SLAM III

Efficient Pose Prediction with Rational Regression Applied to VSLAM

論文
https://www.researchgate.net/publication/379443427_Efficient_Pose_Prediction_with_Rational_Regression_applied_to_vSLAM#fullTextFileContent
背景
vSLAMのトラッキングにおいて、過去の姿勢情報から将来の姿勢を予測することは、効率的な処理に役立つ。従来は多項式スプラインが用いられてきたが、データの傾向から外れた振動が発生する可能性があった。
課題
より滑らかで安定した姿勢予測モデルの構築が必要である。特に、従来の多項式スプラインでは、ルンゲ現象と呼ばれる、高次の多項式を用いるとデータ点から離れた位置で振動が発生する問題があった。
提案手法
本論文では、姿勢予測に有理二次関数、すなわち次数が2以下の多項式の比を用いた新しい手法を提案する。これは、vSLAMシステムのトラッキングにおいて、過去に推定された一連の姿勢から、最新の画像フレームの姿勢を予測するために考案された。具体的には、5自由度モデルを用いた線形最小二乗法アルゴリズムを開発し、極のない有理二次関数を用いて、過去の姿勢データから将来の姿勢を予測する。
新規性
姿勢予測に有理近似/補間を用いるのは、特にSLAM/vSLAMアプリケーションではこれが初めてである。また、提案手法は、リアルタイムアプリケーションに適した特性を持っている。具体的には、線形最小二乗ソルバーであるため、計算量が非常に少ない点が挙げられる。
提案手法の効果
提案手法は、従来手法と比較してより安定した姿勢予測を実現できることが実世界のデータを用いた実験で示されている。具体的には、vSLAMシステムで追跡される特徴点の数が増加し、トラッキングの性能が向上することが確認された。
コードなど
https://github.com/terzakig/RRP

IMU-Aided Event-Based Stereo Visual Odometry

論文
https://arxiv.org/abs/2405.04071
背景
イベントベースのステレオビジュアルオドメトリは、イベントカメラの高速な動作を利用して従来のカメラでは困難な高速・高ダイナミックレンジ環境下での自己位置推定と地図作成を実現する。しかし、従来の直接法ベースの手法では正確な地図作成と効率的な追跡が課題となっていた。
課題
既存のイベントベースのビジュアルオドメトリは、計算量の多さや追跡精度の限界、ヨー軸回転の推定精度に課題を抱えていた。特に、従来のESVOでは、高解像度のイベントカメラではリアルタイム処理が困難になる問題や、ヨー軸回転の推定が不正確になる問題があった。
提案手法
本論文では、ESVOを拡張しイベントカメラとIMUを組み合わせたビジュアルオドメトリを提案する。具体的には、(1)イベントデータから効率的にエッジピクセルをサンプリングする適応的累積(AA)を用いた効率的なエッジピクセルサンプリング、(2)時間的ステレオと静的ステレオの結果を統合した、より完全で正確な地図作成、(3)IMUのジャイロスコープ測定値を事前統合することでヨー軸回転の推定精度を向上させた、高精度なトラッキングの3つのモジュールを導入する。
新規性
本論文の新規性は、イベントベースのステレオビジュアルオドメトリシステムに効率的なエッジピクセルサンプリング、時間的ステレオマッピング、慣性測定の使用という3つのモジュールを追加導入した点にある。これらのモジュールにより、より完全で正確なマッピング結果とカメラの姿勢追跡の精度向上が実現した。
提案手法の効果
公開データセットDSECを用いた実験により、提案手法は従来手法と比較して精度と効率の両面で優れた性能を示した。具体的には、絶対軌跡誤差(ATE)が大幅に減少し、ヨー軸回転を含む6自由度運動においても正確な姿勢推定が可能となった。
コードなど
https://github.com/NAIL-HNU/ESVIO_AA

S-Graphs+: Real-Time Localization and Mapping Leveraging Hierarchical Representations

論文
https://www.researchgate.net/publication/372018467_S-Graphs_Real-time_Localization_and_Mapping_leveraging_Hierarchical_Representations
背景
ロボットは自律的な動作のために周囲の状況を深く理解する必要がある。3D シーングラフは、環境を高レベルのセマンティックな抽象化でモデル化するが、通常、これらの表現を利用しない、別々のSLAMメソッドに依存している。
課題
従来の3Dシーングラフは、SLAMの状態と密接に結合されておらず、環境の階層的な高レベル情報を十分に活用できていない。
提案手法
S-Graphs+は、（1）キーフレーム層、（2）壁層、（3）部屋層、（4）フロア層の4層からなる階層的なファクターグラフを提案する。このグラフは、ロボットの姿勢とその地図の堅牢で正確な推定を得るために、リアルタイムで最適化される。高レベルの情報を抽出するために、マッピングされた壁面とフリースペースクラスタを利用した、新しい部屋とフロアのセグメンテーションアルゴリズムが提示される。
新規性
S-Graphs+は、SLAMグラフとシーングラフを単一の最適化可能なファクターグラフに緊密に結合した、初めてのリアルタイムな4層階層型ファクターグラフである。また、フリースペースクラスタと壁面を用いた新しい部屋セグメンテーションアルゴリズムと、現在抽出されているすべての壁面を用いたフロアセグメンテーションアルゴリズムも提案する。
提案手法の効果
S-Graphs+は、シミュレーションと現実世界の両方で、さまざまな屋内環境をカバーする実験において、従来手法と比較して平均10.67%の精度の向上が見られた。特に、複雑なレイアウトのシナリオでは、より多くの部屋を抽出することで、より多くの制約が追加され、より正確な推定値と優れた表現が可能になる。
コードなど
https://github.com/snt-arg/s_graphs_docker

Visual Place Recognition: A Tutorial

論文
https://ieeexplore.ieee.org/document/10261441
背景
モバイルロボットの重要な能力である自己位置推定において、視覚場所認識 (VPR) が注目されています。VPR は、過去に訪れた場所を画像のみを用いて認識する技術です。近年、VPR に関する研究は増加傾向にあり、その課題、未解決問題、成果について議論されています。
課題
VPR には、データベースやクエリセットの大規模化、様々な環境における外観や視点の変化への対応などが課題として挙げられます。
提案手法
本論文は、VPR に関する初めてのチュートリアルであり、新規手法の提案ではなく、VPR 問題の定義、一般的なアルゴリズムパイプライン、評価方法、主要な課題とその対処法について体系的に解説しています。パイプラインは、画像記述子の計算、記述子の比較による類似度行列の作成、マッチングの決定という段階から構成されます。
新規性
本論文は、新規手法の提案は行っていません。その代わりに、VPR の入門者向けに、VPR の問題設定、アルゴリズム、評価方法、課題などを網羅的に解説しています。また、入力データ、処理方法、出力形式によるVPR問題の分類や、既存研究の比較なども行っています。
提案手法の効果
本論文はチュートリアルであるため、新規手法の効果については言及していません。

Multi-Radar Inertial Odometry for 3D State Estimation Using mmWave Imaging Radar

論文
https://www.researchgate.net/publication/382988607_Multi-Radar_Inertial_Odometry_for_3D_State_Estimation_using_mmWave_Imaging_Radar
背景
自動運転システムにおいて、カメラやLiDAR等のセンサを用いた状態推定は重要だが、天候や照明等の環境要因の影響を受けやすいという課題がある。ミリ波イメージングレーダーは、こうした悪条件下でも堅牢なセンシングが可能である。
課題
ミリ波レーダーは、ノイズが多くスパースで特に屋内環境では処理後のデータが離散化され、幾何学的特徴が不明瞭になることがある。また、レーダーデータの解像度と視野（FOV）のばらつきが不正確な測定につながる可能性がある。
提案手法
ドップラー速度測定の不確実性に対処するため、ドップラー速度の不確実性を管理しながら車体フレーム速度を最適化する手法を提案する。具体的には、複数のミリ波カスケードイメージングレーダーと消費者向けグレードのIMUセンサを組み合わせ、固定ラグスムージング最適化を用いてレーダーデータとIMUセンサデータをシームレスに統合する戦略を採用する。
新規性
本論文では、レーダー測定の不確実性を分析し推定される線形車体フレーム速度の不確実性を評価することで、IMUセンサデータとの融合における課題を明らかにしている。そして、水平方向と垂直方向に設置した2台のミリ波レーダーを用いることで、従来手法では困難であった3次元状態推定の高精度化を実現している。
提案手法の効果
実際の屋内環境で収集したデータを用いた評価により、提案手法は単一のレーダーを用いる場合に比べて並進方向のドリフトを大幅に改善できることが示された。

Semantically Guided Feature Matching for Visual SLAM

背景
Visual SLAMシステムは、伝統的に、カメラの位置推定と環境地図の作成に3次元形状を主に利用してきた。しかし、純粋に幾何学的な情報だけに頼ると、環境の識別が困難な状況や動的なオブジェクトが存在する状況においてシステムの精度が低下することがある。
課題
従来のVisual SLAMシステムにおける特徴点マッチングの精度を向上させるためには、3次元形状情報に加えて、環境の意味的な理解を取り入れる必要がある。具体的には、オブジェクトのクラスや属性などのセマンティック情報を活用することで、よりロバストな特徴点の対応付けが可能になる。
提案手法
本論文では、セマンティック情報を活用してVisual SLAMシステムにおける特徴点マッチングを強化する新しいアルゴリズムを提案している。この手法では、検出した各ORB特徴点に対して高次元のセマンティック記述子を構築する。この記述子は、従来のORB記述子とともに連続するフレーム間で正確な特徴点の対応付けを確立するために使用される。具体的には、各特徴点を中心とした円内のセマンティックラベルのヒストグラムを計算し、それをバイナリベクトルに変換することで、セマンティック記述子を作成する。そして、セマンティック記述子とORB記述子の距離を組み合わせることでより正確な特徴点マッチングを実現する。
新規性
セマンティックセグメンテーションの結果を用いて、特徴点のマッチングを改善する手法を提案している点が新規性として挙げられる。従来手法では、セマンティック情報は主に、ループクロージャーや動的オブジェクトの除去などに用いられてきたが、本論文では、特徴点レベルでセマンティック情報を活用することで、よりロバストなトラッキングを実現している。
提案手法の効果
公開されている大規模データセットを用いた実験の結果、提案手法は従来手法と比較してSLAMシステムの精度を大幅に向上させることが示された。具体的には、KITTIデータセットにおいて提案手法は従来のORB-SLAM2と比較して並進誤差を平均2～3メートル改善した。また、提案手法はSuperPointなどの最新のキーポイント検出器の有効性も高めることが実証された。
コードなど
https://github.com/oguzhanilter/Semantically-Guided-Feature-Matching-for-Visual-SLAM

DVI-SLAM: A Dual Visual Inertial SLAM Network

論文
https://www.researchgate.net/publication/382981789_DVI-SLAM_A_Dual_Visual_Inertial_SLAM_Network
背景
深層学習ベースのVisual SLAMは大きく進歩しているが、従来の手法では、視覚情報の利用方法やIMUとの統合方法に課題があった。特に、従来の深度学習ベースのSLAMシステムではカメラの姿勢推定のために、フォトメトリック残差または再投影残差のいずれか一方しか使用していないものが多く、視覚情報を最大限に活用できていなかった。
課題
視覚情報をより効果的に活用し、IMUとより緊密に統合することで、Visual SLAMの正確性とロバスト性を向上させることが求めらている。具体的には、フォトメトリック情報と再投影情報の両方を統合的に活用し、さらにIMU情報を効果的に組み合わせることで、より高精度な自己位置推定と地図作成が可能になる。
提案手法
本論文では、デュアルビジュアル因子と慣性測定ユニット (IMU) を統合した新しい深層学習ベースのVisual SLAM手法であるDVI-SLAMを提案する。DVI-SLAMは、特徴量メトリック因子と再投影因子の2つの視覚因子を、多因子データ関連付けモジュールを通じて、エンドツーエンドの微分可能な構造に統合する。また、IMU因子もこの構造に自然に組み込むことができる。さらに、各因子の信頼度を動的に学習し調整する仕組みを導入することで、最適化プロセスにおける各因子の影響度を調整する。
新規性
フォトメトリック因子と再投影因子の両方を動的に融合し、さらにIMU因子とも緊密に統合することでエンドツーエンドで学習可能なSLAMシステムを構築した点が新規性として挙げられる。特に、信頼度マップを用いて各因子の重みを動的に調整する手法は、従来手法では見られなかった新しいアプローチである。
提案手法の効果
TartanAir、EuRoC、ETH3D-SLAMなどの公開データセットを用いた実験により、DVI-SLAMは従来の最先端技術を大幅に上回る精度を達成することが示されている。具体的には、EuRoCデータセットにおいて、3つの因子すべてを動的に融合した場合単眼およびステレオの両方の場合において絶対軌跡誤差がそれぞれ45.3％、36.2％減少した。この結果は、提案手法の有効性とロバスト性を示している。

DMSA - Dense Multi Scan Adjustment for LiDAR Inertial Odometry and Global Optimization

論文
https://arxiv.org/abs/2402.19044
背景
LiDARを用いたSimultaneous Localization and Mapping (SLAM) 技術は、自動運転やロボットナビゲーションにおいて重要な役割を担っている。高精度な軌跡推定や環境地図の作成には、複数の点群データを高精度に位置合わせする必要がある。従来の手法では、平面やエッジなどの特徴点に基づいた位置合わせが主流であったが、特徴点が少ない環境では精度が低下する課題があった。
課題
従来のLiDAR SLAMにおける、精度とロバスト性の向上が課題として挙げられる。特に、特徴点が少ない環境、動きの激しい環境、動的なオブジェクトが存在する環境では、ロバストな軌跡推定が困難であった。
提案手法
本論文では、複数の点群データを同時に位置合わせする新しい手法であるDense Multi Scan Adjustment(DMSA)を提案する。DMSAは、点群データを事前に特徴点に絞り込むことなく、すべての点群データをグローバルな点群へと統合し、そのばらつきを反復的に低減することで、高精度な位置合わせを実現する。具体的には、グローバルな点群を均一なグリッドセルに分割し、各セル内の点群を正規分布でモデル化することで、点群間の対応関係を求めることなく位置合わせを行う。さらに、IMUデータと組み合わせることで、連続的な軌跡推定にも対応している。
新規性
本手法は、点群データ全体を用いた密な(dense) 位置合わせ手法である点が従来手法と大きく異なる。点群データを特徴点に分割する必要がないため、特徴点が少ない環境においてもロバストに動作する。また、点群間で直接的な対応関係を求める必要がないため計算効率にも優れています。
提案手法の効果
提案手法であるDMSAを用いることで、高精度かつロバストなLiDAR SLAMを実現できることを、Hilti-Oxford DatasetやNewer College Datasetを用いた実験で示している。具体的には、従来手法と比較して精度とロバスト性の両面で優れた性能を示し、特徴点が少ない環境や動的なオブジェクトが存在する環境においても、高精度な軌跡推定と環境地図作成が可能となった。
コードなど
https://github.com/davidskdds/DMSA_LiDAR_SLAM

CTA-LO: Accurate and Robust LiDAR Odometry Using Continuous-Time Adaptive Estimation

論文
https://ieeexplore.ieee.org/abstract/document/10611453
背景
LiDARを用いたSLAMは、ロボットの自己位置推定と地図作成において重要な技術だが、LiDARの動きの歪みと測距誤差が精度とロバスト性のボトルネックとなっている。従来の手法では、動きの歪みを一定速度運動モデルで補正したり、点群のノイズを考慮していなかったりするため、精度向上の余地があった。
課題
LiDARオドメトリにおける精度の低さとロバスト性の欠如は、主にLiDARの動きの歪みと測距誤差によって生じている。従来の離散時間ベースの手法では、動きの激しいシーンにおいて一定速度運動の仮定がすぐに破綻してしまうため精度が低下します。また、点群のノイズを考慮していないためレジストレーションの精度が低下する可能性があった。
提案手法
本論文では、LiDARの動きの歪みを除去するために連続時間推定を用い、測距誤差を定量化するためにスポット不確かさモデルを構築した、高精度でロバストなLiDARオドメトリ(CTA-LO)を提案する。具体的には、連続時間推定における制約不足問題を解決するために、過去のスキャンの制約を保持するmarginalization手法を提案する。さらに、点群レジストレーションの精度を向上させるために、LiDAR点のスポット不確かさモデルに基づいた残差適応重み付け手法と確率的点群マップを提案する。
新規性
本論文の新規性は、(1)連続時間推定における制約不足問題を解決するために、過去のスキャンの制約を保持するmarginalization手法を提案した点、(2)LiDAR点のスポット不確かさモデルに基づいた残差適応重み付け手法と確率的点群マップを提案し、点群レジストレーションの精度を向上させた点、の2点。
提案手法の効果
複数の公開データセット(NCD,M2DGR,LiLi-OM)を用いた実験により、提案手法は従来手法(A-LOAM, LeGo-LOAM, CT-ICP)と比較して、精度とロバスト性の両面で優れた性能を示した。具体的には、動きの激しいシーンでも正確な軌跡を推定でき疎な環境でも詳細な地図を作成できた。

SLAM IV

LONER: LiDAR Only Neural Representations for Real-Time SLAM

論文
https://arxiv.org/abs/2309.04937
背景
従来のLiDAR SLAMは、点群や占有格子などの手法で地図表現を行ってきたが、これらの手法は現実世界の複雑な形状を正確に表現することが困難であった。近年、NeRFなどのニューラル暗黙シーン表現が高精度なシーン表現と新規ビュー合成を可能にするものとして注目されている。
課題
LiDARを用いたNeRFベースのシーン表現は、従来手法に比べてより現実に近い詳細なマップを生成できるがリアルタイムでの動作が求められるロボティクス分野への応用は困難であった。また、オンライン学習では、マップの異なる領域が学習の過程で異なる度合いで学習されるため、これを考慮した損失関数の設計が必要とされてきた。
提案手法
LONERは、ニューラル暗黙シーン表現を用いたリアルタイムLiDAR SLAMアルゴリズムである。提案手法は以下の要素を含む
- リアルタイム処理: トラッキングにはICP、マッピングには軽量なMLPを用いることでリアルタイム処理を実現している
- 新規損失関数: マップの異なる領域の学習度合いを考慮した、Jensen-Shannon Divergenceに基づく動的マージン損失を提案。これにより、従来の損失関数に比べて高速な収束と正確な再構成を実現している。
- LiDARのみの運用: IMUを使わずにLiDARデータのみを用いることで、多様な環境への適応性を高めている。
新規性
- ニューラル暗黙シーン表現を用いた、初のリアルタイムLiDAR SLAMアルゴリズムである。
- オンライン学習におけるマップの学習状態を考慮した動的マージン損失を提案し、これにより高速な収束と高精度なマップ再構成を実現した。
提案手法の効果
公開されているデータセットを用いた実験により、LONERは従来のLiDAR SLAM手法と同程度の軌跡推定精度を達成しながら、より高精度なマップを生成できることが示されている。
また、動的マージン損失を用いることで、従来の損失関数よりも高速な収束と正確な再構成が可能になることが確認された。
コードなど
https://github.com/umautobots/LONER

LIO-EKF: High Frequency LiDAR-Inertial Odometry Using Extended Kalman Filters

論文
https://arxiv.org/abs/2311.09887
背景
自律ロボットのナビゲーションにおいて、自己位置推定は不可欠な要素である。近年、3D LiDAR-Inertial Odometry (LIO) システムは、LiDAR と IMU の測定値を組み合わせることで、ドリフトの少ない自己位置推定を実現し研究分野で大きな関心を集めている
課題
既存のLIOシステムは、正確な姿勢推定を行うために特徴抽出やデータの関連付け補正ステップにおける反復回数など多くのパラメータ調整を必要としtている。このような調整は、環境やLiDARセンサーの種類によって変化するため、汎用性の高いシステムの構築を困難にしている
提案手法
本論文では、ポイントツーポイントのレジストレーションと古典的な拡張カルマンフィルタ (EKF) スキームに基づいた密結合型LIOシステムであるLIO-EKFを提案する。提案手法では、IMUからの動きの予測、地図の離散化誤差、LiDARのノイズを考慮したデータの関連付けのための新しい適応的閾値設計を提案している。
新規性
LIO-EKFは、従来のLIOシステムに見られるような複数回の反復処理や複雑な状態推定スキームを必要とせず、古典的なEKFを用いて正確なロボットの姿勢を効率的に計算する。また、姿勢の不確実性、地図の離散化誤差、センサーノイズを考慮した新しい適応的閾値モデルを採用している点も、従来手法にはない新規性である。
提案手法の効果
提案するLIO-EKFは、複雑な状態推定スキームや複数回の反復処理を必要としない、よりシンプルなシステム設計でありながら、最先端のシステムと同等のオドメトリ性能を達成できることが示されている。また、LIO-EKFは他の最先端の手法よりもはるかに高速で、IMUフレームレート（100 Hz）に近い速度で姿勢を計算することができる。
コードなど
https://github.com/YibinWu/LIO-EKF

Multi-LIO: A Lightweight Multiple LiDAR-Inertial Odometry System

論文
https://ieeexplore.ieee.org/abstract/document/10611257
背景
自動運転技術の発展に伴い、周囲環境の正確な三次元地図を作成するマッピングシステムの需要が高まっている。従来の単一LiDARシステムは視野（FoV）の制限により正確な自己位置推定が困難だった。この問題を解決するため、複数LiDARシステムが注目されているがリアルタイム処理や精度の面で課題がある。
課題
既存の複数LiDARシステムは、リアルタイム処理と精度の両立が課題となっている。大量のLiDARデータ処理における計算負荷の増大、複数LiDARシステムに最適化されていない非効率なマップフォーマット、そして特に大規模で複雑な環境におけるスキャン-マップレジストレーションの精度向上などが求められている。
提案手法
本論文では、Multi-LIOと呼ばれる軽量かつ堅牢な複数LiDAR-慣性走行距離計測システムを提案している。このシステムは、並列処理とボクセルベースのマップ形式を採用することで計算効率を最適化している。
Multi-LIOは、以下の３つのモジュールで構成されている。
- LiDARチャネル: 各LiDARからの点群データを前処理する。
- ガウシアンボクセルマップ: ハッシュ関数に基づく効率的な最近傍探索と、リアルタイムでのボクセルマップ更新を行う。
- モーションコンペンセーションモジュール: IMUデータから加速度と角速度を統合し、LiDARスキャンモーションコンペンセーションのための事前姿勢を各IMUタイムスタンプで予測する。
新規性
Multi-LIOの新規性は以下の3点。
- リアルタイム処理を実現する軽量なシステム設計により、大規模で複雑な環境でもドリフト誤差を低減できる。
- ガウシアンボクセルマップと、スキャン-マップレジストレーションプロセスにおける点ごとの不確実性推定手法を統合することで、レジストレーション精度を向上。
- 並列化された反復誤差状態カルマンフィルタに並列計算戦略を組み込むことで、状態更新を高速化し、大規模な環境での効率的なマッピングを実現。
提案手法の効果
提案手法により、複数LiDARシステムにおける計算負荷と精度の課題を克服し大規模で複雑な環境においても堅牢かつ正確なリアルタイム走行距離計測を実現している。提案システムは、従来の複数LiDAR-慣性走行距離計測システムと比較して、ドリフト誤差が大幅に減少し、処理時間が短縮されている。また、柔軟な設計により様々なハードウェア構成に対応可能です。

The Importance of Coordinate Frames in Dynamic SLAM

論文
https://www.semanticscholar.org/paper/The-Importance-of-Coordinate-Frames-in-Dynamic-SLAM-Morris-Wang/a2f623639f925f2c5d1dd37e6d5adf284acc8ba3
背景
従来のSLAMシステムは静的な環境を前提としていたが、現実世界は動的なオブジェクトで溢れている。動的オブジェクトを適切に扱うDynamic SLAMは、システム全体の精度向上とオブジェクトの動き推定を可能にする、SLAM研究における重要な分野として注目されている。
課題
Dynamic SLAMにおける重要な課題は、動的オブジェクトの最適な表現方法でである。特に、オブジェクト座標系と世界座標系のどちらで動的オブジェクトの点を表現するかが問題となる。オブジェクト座標系は直感的ですが、必ずしも精度とロバスト性の高い解が得られるとは限らない。
提案手法
本論文では、動的オブジェクトの点を世界座標系で表現するworld-centricな手法を提案する。これは、オブジェクトの動きを剛体と仮定し世界座標系におけるオブジェクト上の点の動きを単一のSE(3)変換で表現できるという考えに基づいている。
この手法では、各時刻におけるオブジェクトの姿勢推定を避けることができる。一方で、各時刻の動的オブジェクトの観測点に対応する変数を設定するため変数の数は増加します。
新規性
本論文では、Dynamic SLAMにおける座標系の選択が最適化問題の構造、安定性、精度に大きな影響を与えることを示した。特に、world-centricな手法は、object-centricな手法よりも正確なオブジェクトの動き推定が可能であり、最適化プロセスにおいても安定していることを示している。
提案手法の効果
提案するworld-centricなDynamic SLAMは、既存のobject-centricな手法と比較して、オブジェクトの動き推定精度が向上し最適化の安定性も高いことが示された。これは、world-centricな手法が、剛体運動をより正確にモデリングできるためと考えられる。
コードなど
https://www.semanticscholar.org/paper/The-Importance-of-Coordinate-Frames-in-Dynamic-SLAM-Morris-Wang/a2f623639f925f2c5d1dd37e6d5adf284acc8ba3

VoxelMap++: Mergeable Voxel Mapping Method for Online LiDAR(-Inertial) Odometry

論文
https://arxiv.org/pdf/2308.02799
背景
LiDAR(-inertial) odometryは、自動運転車やロボットの分野で広く利用されている。近年、高速化と正確なレジストレーション、効率的な増分更新を実現するマッピング手法としてボクセルマップが注目されています。
課題
従来のボクセルマップベースのLiDAR(-inertial) odometry手法であるVoxelMapでは平面の表現に冗長な6DOFが使用されメモリを無駄に使用してしまう問題があった。また、隣接するボクセル間の関係が無視されるため、地図上の平面（地面など）が多数の小さな平面に分割され、平面推定の精度が低下する問題もあった。
提案手法
本論文では、平面のマージを伴う新規なオンラインマージ可能ボクセルマッピング手法であるVoxelMap++を提案する。具体的には、以下の3つの技術を提案する。
- 平面フィッティングと共分散推定の改善: 6DOFから3DOFの平面表現に変更することで、メモリ使用量を削減し、共分散推定の効率を向上させている。
- Union-Findに基づくオンラインボクセルマージ: 隣接するボクセルが同一平面に属すると判定された場合、それらをマージすることで平面推定の精度と状態推定精度を向上させている。
- 様々なLiDARへの対応: 従来のLiDARに加えて、回転しないソリッドステートLiDARにも対応している。
新規性
- 3DOF平面表現とUnion-Findを用いた、メモリ効率と計算効率に優れたオンラインマージ可能ボクセルマップを提案。
- 平面のマージにより、平面推定の精度と状態推定精度を向上。
- 従来のLiDARに加えて、回転しないソリッドステートLiDARにも対応。
提案手法の効果
公開されている都市環境データセット(M2DGR, KITTI)と、非構造化環境や縮退環境を含む著者独自のデータセットを用いた実験により、VoxelMap++は従来手法と比較して、精度と効率の両面において優れた性能を示している。
特に、平面のマージにより平面推定の精度が向上し、その結果LiDAR(-inertial) odometryの精度も向上している。
また、メモリ使用量とCPU使用量が削減されておりリソース制約のある組み込みシステムにも適用可能。
コードなど
https://github.com/uestc-icsp/VoxelMapPlus_Public?tab=readme-ov-file

Efficient and Consistent Bundle Adjustment on Lidar Point Clouds

論文
https://arxiv.org/abs/2209.08854
背景
LiDARベースの技術は、自動運転やロボット工学などの分野で広く利用されている。これらの技術の中心となるタスクは、複数のLiDAR点群を位置合わせして一貫性のあるグローバルマップを作成することです。従来のペアワイズレジストレーション手法はドリフトの蓄積や計算コストの増大などの問題があり、複数点群の同時レジストレーションを実現する、より効率的な技術が求められている。
課題
LiDAR BA には、主に2つの課題がある。第一に、LiDARは測定範囲が広くてもスキャンライン間の解像度が低いため異なるスキャン間で同じ点特徴を捉えることが困難です。これは、個々の点特徴を正確に捉える高解像度画像の恩恵を受ける、視覚的なバンドル調整の定式化を妨げてきた。第二に、実際のLiDARセンサーは膨大な数の生点を収集するため、LiDAR BAですべての点を処理すると計算量が非常に大きくなる。
提案手法
本論文では、LiDAR点群専用の効率的かつ一貫性のあるバンドル調整フレームワークを提案する。このフレームワークは、先行研究 BALMに基づいており、LiDARスキャンに多く含まれるエッジおよび平面特徴に基づいてLiDAR BA 問題を定式化している。このフレームワークでは、ポイントクラスタという重要な概念を採用・形式化している。ポイントクラスタは、1つの特徴に関連付けられたLiDARスキャンのすべての点を、コンパクトなパラメータセット、ポイントクラスタ座標で要約したものである。このポイントクラスタに基づいて、BA 最適化の閉形式導関数（2次まで）を導出する。これらの理論的結果に基づき、BALM2.0と呼ばれる効率的な2次ソルバーを開発した。
新規性
本論文で提案されているBAフレームワークの主な新規性は次のとおり。
- 従来手法のように経験的な固定ではなく、厳密な証明に基づいた正確な特徴量除去を行う
- マップの一貫性を損なうことなく、真のマップ一貫性（点から平面までの距離）を最小化するコスト関数を採用する
- 推定されたLiDAR姿勢の不確実性を推定する
- コスト関数、ヤコビアン、ヘッセ行列の評価において、個々の点の列挙を根本的に排除するポイントクラスタを採用する
提案手法の効果
提案手法は、既存の最先端技術と比較して計算時間が短縮されている。これは、問題の性質とLiDAR点群の特性を最大限に活用した相互に関連し厳密に証明された3つの技術によるもの。
- 特徴量パラメータをBA最適化の前に閉形式で解くこと。これにより、特徴量パラメータを最適化から削除することができ、最適化の次元が基本的に姿勢の次元だけに縮小される。
- 2次ソルバーは、2次コスト関数に自然に適合し、反復最適化において高速な収束を実現する。これは、コスト関数の閉形式ヤコビアンとヘッセ行列の解析的導出によって実現されている。
- ポイントクラスタは、コスト評価、導関数評価、不確実性評価のいずれにおいても、個々の点を列挙することなくすべての生点を集約することを可能にする。
  ポイントクラスタ技術の恩恵により、提案手法はすべての生点測定値の情報を利用することができ、LiDAR測定ノイズのレベルで高い姿勢推定精度（数センチメートル）を達成している。
コードなど
https://github.com/hku-mars/BALM?tab=readme-ov-file

DORF: A Dynamic Object Removal Framework for Robust Static LiDAR Mapping in Urban Environments

論文
https://ieeexplore.ieee.org/document/10274835
背景
自動運転車や移動ロボットといったロボットシステムにおいて、正確な自己位置推定とナビゲーションを実現するために、3次元点群地図が広く活用されている。
課題
都市環境における動的なオブジェクト、例えば車や歩行者は、地図生成プロセス中にゴーストアーティファクトを発生させ、地図品質の低下やロボットナビゲーションの阻害を引き起こする。オンラインでの動的オブジェクト除去手法は、利用できる情報範囲が局所的なものに限定されるため、性能が制限される
提案手法
本論文では、DORF (Dynamic Object Removal Framework)と呼ばれる、グローバルな4次元時空間LiDAR情報を活用してノイズのない静的な点群地図生成を実現する、新規な粗から精へのオフラインフレームワークを提案する。DORFはまず、Receding Horizon Sampling (RHS) メカニズムを用いることで、確実な静的点を保持する。次に、都市環境における動的オブジェクトが地面と相互作用するという固有の特性を利用し段階的に、より曖昧な静的点を回復していく。
新規性
- 4次元時空間LiDAR情報を活用して静的点群地図を生成する、粗から精へのオフラインフレームワークを提案。
- 可視性に基づく除去のための視野(FOV)を効果的に拡大する、Receding Horizon Sampling (RHS) メカニズムを提案。
- 地面セグメンテーションに2.5D Polar Elevation Mapを使用し、静的環境情報の保持を強化。
- 高速なレイトレーシング計算を実現する、Bird's-Eye View (BEV) occupancy checking手法を導入。
提案手法の効果
提案手法は、SemanticKITTIデータセットなどの様々なタイプの動的データセットにおいて、有効性と堅牢性が検証されている
特に、動的オブジェクトが多い混雑した環境において、従来手法と比較して優れた性能を発揮する。
提案手法は、移動ロボットシステムのナビゲーションやローカリゼーションタスクの精度向上に貢献する。

ImMesh: An Immediate LiDAR Localization and Meshing Framework

論文
https://github.com/hku-mars/ImMesh
背景
メタバース、VR/AR、ビデオゲームといった3Dアプリケーションの広まりにより、現実世界に似た仮想環境を提供する必要性が高まっている。こうしたアプリケーションは、現実世界の複雑な形状を表現する三角形メッシュを基盤としています。
課題
3D環境のリアルタイムメッシュ生成は、従来の手法ではオフライン処理に頼るかリアルタイム処理可能な場合でも計算コストが高いという課題があった。特に、大規模なシーンにおいてリアルタイムでメッシュを再構築できる手法が求められている。
提案手法
本論文では、リアルタイムでLiDARによる自己位置推定とメッシュ生成を同時に行う、ImMeshと呼ばれる新しいフレームワークを提案する。ImMeshは、受信機、ローカライズ、メッシュ生成、ブロードキャスターの4つの密結合モジュールで構成されている。ローカライズモジュールは、受信機から前処理されたセンサデータを利用して、LiDARスキャンをマップに登録することでセンサの姿勢をオンラインで推定しマップを動的に拡張する。メッシュ生成モジュールでは、登録されたLiDARスキャンを用いて、オンザフライで三角形メッシュを段階的に再構築する。メッシュ生成には、ボクセルベースの空間分割、ボクセル内の平面への射影による次元削減、プル・コミット・プッシュによる段階的なメッシュ構築といった技術が用いられている。
新規性
- 標準的なCPUを用いて、大規模シーンの三角形メッシュをオンラインでリアルタイムに再構築できる初めてのフレームワークを提案。
- ボクセル単位のメッシュ生成処理により、効率的かつ段階的にメッシュを再構築。
- 既存の高精度なオフライン手法に匹敵する、満足のいくメッシュ精度を実現。
提案手法の効果
ImMeshは、様々なLiDARセンサとシナリオを用いた実証実験により、リアルタイム性能が確認された。
既存のメッシュ生成手法との比較評価により、ImMeshは高いメッシュ精度を維持しながら、最良のランタイム性能を達成することが示された。
ImMeshは、LiDAR点群の補強や、迅速な現場測量のためのロスレステクスチャ再構成といった応用が可能であることが実証された。
コードなど
https://github.com/hku-mars/ImMesh

OASIS: Optimal Arrangements for Sensing in SLAM

論文
https://arxiv.org/abs/2309.10698
背景
ロボットのセンサの数や配置は、その知覚能力に大きく影響する。正確な検出、ローカリゼーション、マッピングを可能にするセンサ配置は、制御タスクの成功に不可欠である。しかし、新しいロボットプラットフォームを設計する際、研究者や実務家は、標準的な構成を模倣したり視野（FOV）カバレッジのような単純な経験則を最大化するだけに留まりがちである。
課題
モバイルロボットのセンサ配置を最適化するための明確な理論的枠組みが不足している。特に、複数のセンサからの独立した測定値を統合し、動作環境のシミュレーションが容易なマッピングシステムやナビゲーションシステムの設計において、最適なセンサ配置を見つけるための体系的な方法が求められている。
提案手法
本論文では、SLAM向けセンサ配置問題を、E-最適性基準に基づくサブセット選択問題として定式化した、OASIS (Optimal Arrangements for Sensing in SLAM) と呼ばれる新しい手法を提案する。具体的には、候補となるセンサ取り付け位置の有限集合の中から、シミュレートされたロボット軌跡のサンプルセットに対して評価された、情報理論的なローカリゼーション精度の指標を最大化するサブセットを選択する。この問題は一般的にNP困難ですが、貪欲なセンサ選択と、高速な凸緩和ベースの事後検証を組み合わせることで、実際には証明可能な最適なセンサ設計を効率的に回復できることが示されている。
新規性
- 候補となるセンサ取り付け位置の有限集合を設計空間とし、バイナリ整数計画問題として表現できる集合関数最大化問題を提案。
- 計算が容易な目的関数として、ランドマークベースのSLAMのフィッシャー情報行列のSchur補行列のE-最適性（最小固有値最大化）を使用。
- 貪欲なセンサ選択と、凸緩和ベースの上限計算による最適性の検証を組み合わせた、効率的な最適化手法を開発。
提案手法の効果
提案されたOASISは、多数の候補センサ取り付け位置に対してもうまくスケールし、本質的に最適なセンサ設計を回復できることを示した。
合成実験の結果、OASISを用いて配置されたセンサは、従来手法と比較して、Visual SLAM推定の平均二乗誤差の点で優れていることが明らかになった。
貪欲アルゴリズムと凸緩和の組み合わせにより、実用的には証明可能に近い最適解が得られることが示された。
コードなど
https://github.com/PushyamiKaveti/optimal_camera_placement

SLAM V

HPF-SLAM: An Efficient Visual SLAM System Leveraging Hybrid Point Features

論文
https://ieeexplore.ieee.org/document/10610220
背景
従来のVisual SLAMシステムは、特徴ベースの手法が精度とロバスト性に優れていることから広く採用されている。しかし、既存の手法は、手作業で設計された特徴と学習可能な特徴のいずれか一方のみを使用しており、特徴の属性によって制限されている。
課題
手作業で設計された特徴と学習可能な特徴の両方の利点を活かし、キーポイントの特定と記述子の表現力の両方を向上させる、より堅牢で効率的なVisual SLAMシステムを開発する必要がある。
提案手法
- 手作業で設計された特徴（例：ORB）と学習可能な特徴（例：SuperPoint）を単一のシステムに統合するHPF-SLAMを提案
- ハイブリッドポイント特徴量を効率的に処理するために、抽出、クラス間処理、後処理を行う前処理モジュールを設計
- クロススクラスミスマッチング問題に対処するため、クラス記述子と重み付きハミング距離を利用して、同じ特徴クラス内でのみデータの関連付けを行う効率的なマッチング手法を提案
- ハイブリッドポイント特徴量を扱うためのハイブリッドBag-of-Words（H-BoW）モデルを設計し、マッチングとループクロージャー検出を高速化
新規性
- 手作業で設計された特徴と学習可能な特徴を組み合わせた、新しい効率的なVisual SLAMシステムであるHPF-SLAMを提案
- ハイブリッドポイント特徴量を扱うための、新規なマッチング手法とH-BoWモデルを設計
提案手法の効果
- HPF-SLAMは、2種類のポイント特徴量とそのペアにより、ORB-SLAM2や学習可能な特徴のみを使用するシステムと比較して、追跡において優れたロバスト性を示す
- より多くのデータの関連付けを確立するため、より多くの堅牢なランドマーク（マップポイント）を持つ、より密なマップを生成する
- 実験の結果、HPF-SLAMはベースラインを超えるパフォーマンスを達成しながら、処理速度は同等であることが示されている。

2D-3D Object Shape Alignment for Camera-Object Pose Compensation in Object-Visual SLAM

論文
https://ieeexplore.ieee.org/document/10610659
背景
近年の深層学習の発展により、カメラによる3次元物体姿勢推定の精度は向上しましたがそれでも誤差は残ります。この誤差は、オブジェクトのローカライズやマッピングの精度に悪影響を及ぼす。
課題
深層学習ベースの物体姿勢推定は、カメラの解像度、遮蔽、モーションブラーなどの要因により、依然として誤差が生じる。
学習ベースの測定値の確率的誤差分布を数学的にモデル化することが困難なため、推定器が測定値の不確実性を反映することが難しい。
提案手法
本論文では、2Dセグメンテーションと3D物体モデルの射影を用いて、カメラと物体の相対姿勢の6自由度誤差を補正する手法を提案しています。具体的には、画像平面上の2Dセグメンテーションと3D物体の射影を、ロバストな最適化手法を用いて位置合わせする。
- 並進と回転の分離: 最適化の安定化と計算コスト削減のため、並進と回転を切り離して処理する。
- 線形最適化による初期値推定: まず、並進成分を線形最適化問題として解き、非線形最適化の正確な初期値を求める。
- 多重初期値を用いた2D-ICP: 回転成分については、初期値の不確かさを考慮し、多重初期値を用いた2D画像平面でのICPを実行する。
  不変EKFを用いたSLAM: 補正された姿勢測定値を用いて、不変EKFベースのオブジェクトビジュアルSLAMを実行する。
新規性
- 2Dセグメンテーションと3D物体モデルの射影の形状アライメントにより、RGBカメラのみを用いても正確なカメラ-物体相対姿勢測定値を得ることが可能になる
- 並進と回転を切り離し、多重初期値を用いることで、ロバストな姿勢補正を実現
提案手法の効果
- YCB-Videoデータセットを用いた実験により、提案手法は従来手法と比較して、カメラ-物体相対姿勢の精度、ローカライズ精度、マッピング精度が向上することを示した
- 特に、初期姿勢誤差が大きい場合でも、安定した性能を発揮することを確認

Spectral Trade-Off for Measurement Sparsification of Pose-Graph SLAM

論文
https://ieeexplore.ieee.org/document/10333265
背景
ポーズグラフSLAMでは、計測データが多いほど計算負荷が大きくなる。計算負荷を削減するために計測の一部を削除することが考えられるが、重要な計測データが削除されると推定精度が低下する可能性がある。
課題
ポーズグラフSLAMにおける計測削減において、情報の損失を抑えつつ、計算負荷を効果的に削減する方法が必要とされている。従来手法では、削除するエッジ数を事前に決定する必要があり、環境やデータセットに応じて適切な設定を行うことが困難であった。
提案手法
本論文では、グラフ・ラプラシアンのフィードラー値の最大化と隣接行列の最大固体値の最小化の間のトレードオフ最適化問題を提案する。
具体的には、計測グラフのエッジ数を調整することで、フィードラー値の最大化による推定精度向上と、隣接行列の最大固有値最小化による計算負荷削減のバランスを取る。
新規性
- エッジ数を事前に指定せずに、トレードオフ最適化問題として計測削減を行うため、様々な環境やデータセットに柔軟に対応可能
- 隣接行列の最大固有値を考慮することで、計測グラフのエッジが均等に分布し、特定のノードに情報が集中することを防ぎ、冗長な情報の削除を促進。
提案手法の効果
CSAIL、Intel、Manhattanデータセットを用いた実験により、提案手法は従来手法よりも低い誤差でポーズグラフSLAMを実行可能であることを示した。
提案手法によって得られたスパース化されたグラフは、計測データの均等な分布と冗長な情報の効率的な削除を実現している。

Learning Covariances for Estimation with Constrained Bilevel Optimization

論文
https://arxiv.org/abs/2309.09718
背景
ロボットの自己位置推定において、状態推定器が真値に収束するには、ノイズモデルの適切な調整が不可欠である。ノイズモデルは、各センサーの不確実性を適切に反映し、ヤコビアンや誤差ベクトルの重み付けに使用されるべきですが、従来は手動で調整されていた。
課題
- ノイズモデル（共分散行列）の手動調整は、アプリケーションごとに最適な値が異なるため、煩雑で時間のかかる作業となる
- 従来の学習ベースの手法は、ハイパーパラメータに敏感だったり、グラフ最適化アルゴリズムの微分可能性を仮定したりしており、最先端の最適化手法には適用できない場合がある
- 学習された共分散行列の条件数が考慮されておらず、推定問題の数値的安定性が損なわれる可能性がある
提案手法
本論文では、制約付き二層最適化問題として学習プロセスを定式化することで、調整済み共分散行列を推定する勾配ベースの手法を提案している。
- 二層最適化: 内側ループでは因子グラフ上で非線形最小二乗問題を解き、外側ループでは推定軌道と真値の軌道の誤差を最小化するように共分散行列を更新します
- 数値微分: パラメータ空間が比較的小さいことを利用し、数値微分を用いて必要な勾配を効率的に推定します
- 条件数制約: 学習プロセスに条件数制約を組み込むことで、条件の整った共分散行列を推定し、オンライン推論中の線形化システムの安定性を向上させます
新規性
- 勾配ベースの手法を用いて、因子グラフ上で直接共分散行列を学習する枠組みを提案
- 条件数制約を導入することで、数値的に安定した共分散行列の推定を実現
提案手法の効果
- シミュレーションと実世界の両方で行われた様々なタスクにおいて、提案手法は従来の手法と比較して、より正確な状態推定を実現しました
- 特に、未知のテスト軌道においても、より正確な追跡精度が得られました

UWB Radar SLAM: An Anchorless Approach in Vision Denied Indoor Environments

論文
https://ieeexplore.ieee.org/document/10175555
背景
SLAMはロボットの自律航行に不可欠な技術だが、従来のLiDARやカメラを用いたSLAMシステムは、煙や鏡面など視界不良な環境では性能が低下するという課題がある。電磁波は波長が長いほど透過性が高まるため、UWBレーダーは視界不良な環境でのセンシングに適している。
課題
- 従来のUWBレーダーを用いたSLAMシステムは、環境内にアンカーを設置する必要があるため、既存インフラストラクチャの変更が難しい
- マルチロボットによる協調型SLAMは、単一ロボットシステムに適用できない
- 過去の観測データと現在の場所記述子を比較するバイオミメティックSLAMは、計算コストが高く、マルチパス伝搬の影響を受けやすい
提案手法
本論文では、視界不良な屋内環境において、アンカーを用いずに単一ロボットで動作するUWBレーダーSLAMシステムを提案する。
- ロボットに搭載した複数のUWBレーダーモジュールから得られた距離情報を用いて、三角測量によりランドマークの位置を推定する
- DBSCANを用いたアウトライア除去により、マルチパス伝搬などの影響による誤観測を除去し、ロバストなランドマーク推定を実現
- ランドマークとロボットの姿勢を同時に推定するために、未知の対応関係を考慮したEKF SLAMアルゴリズムを採用
新規性
- アンカーを用いずに、単一ロボットで動作するUWBレーダーSLAMシステムを提案
- DBSCANを用いたアウトライア除去により、マルチパス伝搬に強いロバストなランドマーク推定を実現
提案手法の効果
- 実験結果から、提案手法は、従来のLiDARやカメラベースのSLAMシステムでは困難な視界不良環境においても、ロボットの自己位置推定と環境地図の作成が可能であることを示した
- 特に、煙が充満した環境においても、UWBレーダーSLAMは安定した性能を発揮することを確認

Less Is More: Physical-Enhanced Radar-Inertial Odometry

論文
https://ieeexplore.ieee.org/document/10611471
背景
レーダーは、観測対象の物理的特性に関する情報を提供するという利点がある。従来のレーダーベースの状態推定では、レーダー点をスパースな速度補助点として扱うだけで、レーダーの物理的特性を十分に活用できていなかった。
課題
- レーダーデータは、視覚画像やLiDAR点群と比較してノイズが多い
- ノイズの影響により、動的ポイントの除去や対応付けが困難
- 従来手法では、レーダーの物理特性を十分に考慮していない
提案手法
本論文では、物理特性を強化した、密結合型のレーダー慣性オドメトリ（RIO）手法を提案する。具体的には、ドップラー速度とレーダー断面積（RCS）を活用し、以下の要素を強化する
- 静的レーダー点のフィルタリング: IMU支援速度チェックスキームにより、ノイズを含む動的なレーダー点を除去
- 対応点推定: RCS情報を使用して、点と点の対応付けの精度を向上
- 残差関数: ドップラー速度残差と点間残差に、物理特性情報を組み込み
新規性
- ドップラー速度とIMUデータを組み合わせた、静的レーダー点の新しいフィルタリング手法
- 点間対応推定における、RCS情報の活用
- レーダーの物理特性を活用することで、少ないレーダー点でも高精度なRIOを実現できることを実証
提案手法の効果
- 公開データセットと独自収集データセットを用いた実験により、提案手法が従来手法よりも優れた性能を持つことを確認
- 物理特性に基づくフィルタリングにより、使用するレーダー点数を減らしながらも、精度が向上することを実証。これは「Less is More」の原則を支持する結果であると言える
コードなど
https://github.com/HKUST-Aerial-Robotics/RIO

Linear Four-Point LiDAR SLAM for Manhattan World Environments

論文
https://ieeexplore.ieee.org/document/10250905
背景
従来のRGB-Dカメラを用いたSLAM手法は、低テクスチャ環境や広くて開けた空間での性能が低下するという課題があった。これは、RGB-Dカメラの計測範囲が狭く、周囲の壁を検出できないことが原因である。
課題
RGB-Dカメラの計測範囲の制限を克服し、安価な4点LiDARを用いて、広くて開けた空間でも正確なカメラ軌跡とマップを構築することが課題。
提案手法
- 安価な4点LiDARとRGB-Dカメラを組み合わせた、線形カルマンフィルターベースのSLAMアルゴリズム「FL-SLAM」を提案
- 4点LiDARのスパースな距離計測値から周囲の壁を検出し、マンハッタンワールド（MW）の構造的規則性を利用して、グローバルなMWマップを構築
- RGB-Dカメラの計測範囲外の壁を4点LiDARで検出することで、従来のL-SLAMのグローバルマップを補完し、広範囲で有効な3次元グローバルMWマップを作成
新規性
- MWの構造的規則性を活用し、安価な4点LiDARのスパースセンシングで信頼性の高いグローバルMWマップを構築
- 4点LiDARで構築したグローバルMWマップを用いて、線形KFベースのRGB-D SLAM（L-SLAM）とシームレスに統合し、広くて開けた空間でも有効な性能を実現
提案手法の効果
- 従来のRGB-D SLAMと比較して、広くて開けた空間を含む様々な屋内MW環境において、より正確なカメラ軌跡とマップを構築可能
- ループ検出アルゴリズムを用いずに、最先端のSLAM手法と同等の性能を実現

IBoW3D: Place Recognition Based on Incremental and General Bag of Words in 3D Scans

論文
https://ieeexplore.ieee.org/document/10610036
背景
従来の3次元点群による場所認識手法では、3次元スキャンを2次元画像に変換することで部分的な構造情報の活用が不十分であったり、特定の特徴抽出アルゴリズムに依存した制約のあるBag-of-Words（BoW）表現に頼っていた。
課題
- 3次元点群の場所認識において、3次元構造情報を十分に活用できていない
- 特定の特徴抽出アルゴリズムに依存しない、汎用性の高いBoW表現が求められている
- 従来の場所認識手法では、真のループが検出されない場合がある
提案手法
iBoW3Dは、3次元スキャンにおける増分型で汎用的なBoWに基づく、新しい場所認識手法
- 適応的なキーポイントと3次元ローカル特徴抽出を用い、定期的に更新される増分BoWモデルを採用
- データベースからの粗い候補から詳細な候補への選択を可能にする
- 従来手法で問題となっていた、真のループ検出漏れに対処するため、新しい指標を提案
新規性
- 増分型BoW: オンラインで動作し、事前に辞書を作成する必要がない
- 汎用性: キーポイントとローカル特徴の抽出に特定の方法に限定されないため、将来的により優れたアルゴリズムへの置き換えが容易
- 真のループ検出の改善: 新しい指標を導入することで、従来手法よりも正確にループを検出できる
提案手法の効果
- 3つの異なるデータセットを用いた評価実験の結果、iBoW3Dは従来手法と比較して優れた性能を達成
- データ品質の異なるデータセットに対しても、ロバストな性能と優れた汎化能力を示している

Language-EXtended Indoor SLAM (LEXIS): A Versatile System for Real-Time Visual Scene Understanding

論文
https://ieeexplore.ieee.org/document/10610341?denied=
背景
従来の室内SLAMシステムでは、意味理解に、固定されたクラスを持つセマンティックモデルが用いられてきた。しかし、この手法では認識できるクラスが限られるため、複雑な屋内環境におけるシステムの汎用性が制限されていた
課題
従来の固定クラスモデルでは、ロボットシステムがさまざまな屋内環境を理解し、適応する能力が制限されていました。未知の環境や、あらかじめ定義されていないクラスの部屋を含む環境では、効果的に動作することができなかった
提案手法
LEXISは、大規模言語モデル（LLM）のオープンボキャブラリーという特性を利用し、従来のSLAMシステムの制限を克服する。
- CLIP特徴埋め込みトポロジカルマップ: まず、視覚慣性オドメトリを用いて環境のトポロジカルSLAMグラフを構築し、各ノードにCLIP特徴量を埋め込みます。これにより、意味情報を効率的に符号化できる
- オンラインルームセグメンテーション: CLIP特徴量を用いてオンラインで部屋のセグメンテーションを実現します。この手法は、部屋の大きさやレイアウトにとらわれず、オープンフロアプランにも対応できる
- ルームセントリックな場所認識: 部屋のセグメンテーション情報に基づいて、階層的なルーム単位のループクロージャを提案します。これにより、セマンティックに関連する場所へのループクロージャ検索が可能になる
新規性
- LLMとSLAMの統合: LEXISは、LLMのオープンボキャブラリー機能と従来のローカライズおよびマッピング手法を組み合わせ、単一のシステムでシーン理解と場所認識を実現している
- 単一モデルによる多機能性: 従来のアプローチとは異なり、LEXISは部屋の分類、場所認識、意味理解に単一の事前学習済みモデルを使用する
- 軽量なトポロジカル表現: LEXISは、メトリックマップではなく、トポロジカル表現を使用する。これにより、特徴量の埋め込みが効率化され、計算コストが削減される
提案手法の効果
- 高精度なセグメンテーションと分類: LEXISは、さまざまなレイアウトやサイズの部屋を効果的に分類・セグメンテーションし、従来手法よりも優れた性能を示した
- ロバストな場所認識: LEXISの場所認識手法は、NetVLADやDBoWなどの既存手法と同等の性能を達成した
- 正確な軌道推定: LEXISは、ORB-SLAM3やVINS-Fusionなどの確立されたシステムに匹敵するATEを達成した
- 計画タスクへの応用: LEXISで生成された表現は、複数階や部屋を含む現実環境でのミッションプランニングに利用できる

SLAM VI

VICAN: Very Efficient Calibration Algorithm for Large Camera Networks

論文
https://ieeexplore.ieee.org/document/10611245
背景
- 大規模なカメラネットワークにおけるカメラの正確な姿勢推定は、コンピュータビジョンやロボティクスの基礎的な問題であり、自律航法、監視、拡張現実など幅広い応用がある
- 従来のPose Graph Optimization (PGO)アプローチは、カメラ間の相対的な姿勢関係のみに依存しており、低照度、低テクスチャ、または遮蔽された環境では正確な姿勢推定が困難である
- 特に、グラフの接続が悪い領域では、誤差の伝播が妨げられ、PGOの精度が制限される
- Structure-from-Motion (SfM)システムは、3Dシーンの再構成と同時にカメラの姿勢を推定するが、大規模なシーンでは計算量が膨大になる
課題
- 従来のPGOは、カメラ間の相対的な姿勢関係に依存するため、環境条件が悪い場合に精度が低下する
- 大規模カメラネットワークでは、計算コストが課題となる
- 動的な要素を考慮したカメラ姿勢推定手法が不足している
提案手法
- 動的な剛体オブジェクトを導入した新しいPGO定式化: 静的なカメラネットワークに加えて、視野内に動的な剛体オブジェクトを導入し、その姿勢を単一の画像から信頼性高く推定する
- 二部グラフによる姿勢グラフ最適化: カメラの姿勢、オブジェクトの姿勢、およびそれらを結びつける相対的な変換を含む二部グラフを構築する
- 反復的な主双対アルゴリズム: 大規模なグラフに対応できる高速な反復主双対アルゴリズムを提案し、カメラとオブジェクトの回転を計算する
- ストリーミング処理への対応: オブジェクトの動きに合わせて、アルゴリズムを最初からやり直すのではなく、初期化を更新することで、ストリーミングデータへの対応を可能にする
新規性
- カメラと動的オブジェクトを組み合わせた二部グラフによるカメラネットワークの局所化問題の定式化
- 画像ストリームから大量のオブジェクトノードを処理できる新しい反復的な最適化手法
- 従来のPGOソルバーでは扱えなかった、動的オブジェクトを含む拡張グラフを処理する高速な反復アルゴリズム
- 屋内シーンのカメラ姿勢推定用の新しい画像と3Dデータセットの提供
提案手法の効果
- 提案手法は、大規模なカメラネットワークにおいて、高精度な姿勢推定を効率的に実現する
- シミュレーションされた屋内環境における実験では、平均回転誤差0.04度、平均並進誤差3cm（358m2の店舗、342台のカメラ）と、平均回転誤差0.07度、平均並進誤差0.7cm（72m2の部屋、25台のカメラ）を達成した
- オブジェクトの姿勢が増えるにつれて、計算効率を損なうことなく精度が向上することが示された
- 提案手法は、既存のPGOソルバーと比較して、よりロバストで効率的であることが示唆された
- 新しいデータセットは、オブジェクトおよびカメラの姿勢推定に関する今後の研究のためのベンチマークとして利用できる
- オブジェクトのノードとエッジを導入することで、カメラのみのノードとエッジで構成される従来のPGOの限界を克服し、カメラ姿勢推定における悪影響を軽減できる
コードなど
https://github.com/gabmoreira/vican

Tightly-Coupled LiDAR-Visual-Inertial SLAM and Large-Scale Volumetric-Occupancy Mapping

論文
https://ieeexplore.ieee.org/document/10610460?denied=
背景
自律移動ロボットのナビゲーションには、高精度な自己位置推定と、環境のグローバルに整合性のある3D表現が不可欠である。複数のセンサーを融合するSLAMアプローチが有効だが、従来のLiDAR SLAMは点群表現に留まり、経路計画などへの直接利用が難しい。そのため、SLAMと体積マッピングの統合が重要視されるが、姿勢ドリフトによるマップ精度の低下が課題。特に大規模環境では、ドリフトを抑えつつ、整合性のあるマップ生成が困難
課題
既存のSLAMと体積マッピングは独立して扱われることが多く、グローバルな整合性を確保するための最適化が疎結合である。LiDARデータの処理では、ICPのようなデータ関連付けに計算コストがかかる。また、大規模環境でのドリフト抑制と、自由空間を明示的に表現した3Dマップの生成も課題である。これらの課題を解決し、ロボットのナビゲーションなどのダウンストリームタスクに直接利用可能なマップを提供する必要がある。
提案手法
本論文では、局所サブマップを活用した、緊密に結合されたLVI-SLAMと体積マッピングのフレームワークを提案する。LiDAR誤差項には、占有値と勾配に直接作用する新しい残差定式化を導入し、データ関連付けを回避。残差は、フレーム間とサブマップ間で利用でき、モーション補償により動的なLiDARセンサーに対応する。Supereight2をベースに、OKVIS2を拡張しLiDAR制約を組み込み、フレーム間およびマップ間のLiDAR制約を追加する
新規性
LiDARデータの新しい残差定式化により、計算コストを削減し、緊密に結合されたLVI-SLAMを実現。局所サブマップを用いて大規模環境でのグローバルな整合性を確保し、占有値と勾配を直接使用する残差により、効率的な計算が可能になった。また、LiDARとVisual-Inertialの情報を緊密に統合することで、高精度な自己位置推定と一貫性のある3Dマップを両立した。従来手法と比較して、データ関連付けのステップを回避し、計算効率を向上させている。
提案手法の効果
実験により、本手法が最先端の自己位置推定精度を達成し、様々なLiDARセンサーでグローバルに整合性のあるマップを生成できることを示めした。HILTIデータセットでの評価では、正確な3D再構成と、ロボットナビゲーションに利用可能な占有フィールドが得られ、サブマップ間の不整合もありませんでした。LiDAR制約の追加により、VI-SLAMのみの場合よりも精度が向上し、大規模環境での安定した3Dマップ生成に貢献する。

Active Visual Localization for Multi-Agent Collaboration: A Data-Driven Approach

論文
https://arxiv.org/abs/2310.02650
背景
近年、SLAM技術を搭載したデバイスが普及し、既存の地図を利用した自己位置推定が注目されている。特に、複数ロボットや人間とロボットの協調作業では、すべてのエージェントが共通の地図上で自己位置を把握する必要があり、重要な課題である。しかし、ドローンやヘッドマウントディスプレイで作成された地図を、地上ロボットが利用する際には、視点の違いから自己位置推定の精度が低下するという問題がある。特に地上ロボットは、周囲の障害物により視覚的な情報が遮られやすく、この問題が顕著になる。
課題
異なる視点を持つデバイス間で作成された地図を共有する場合、視点の変化による視覚的重なりの減少が自己位置推定精度を低下させます。特に、地上ロボットは、障害物による視界の遮りが多く、視覚情報が不足しがちである。従来の研究では、与えられた視点からの画像で最良の結果を得ようとするアプローチが中心でしたが、ロボットは自律的に視点を選択する能力を持っており、この能力を活用して自己位置推定を改善することが求められている。既存手法では、視点選択の評価基準が十分でなく、特に視点の変化が大きい場合には課題が残る。
提案手法
本論文では、アクティブ視覚ローカリゼーションを用いて、ロボットが地図内の最適な視点を自律的に選択する手法を提案する。具体的には、データ駆動型のアプローチを採用し、視点評価モデルを学習させる。このモデルは、Structure-from-Motion（SfM）モデルから得られた特徴とカメラの視点に基づいて、視覚ローカリゼーションに有効な視点の尤度を予測します。推論段階では、複数の視点をサンプリングし、最も高いスコアの視点を最適な視点として選択し、ロボットを動かします。様々な視点選択基準を比較評価し、データ駆動型アプローチの優位性を示す。
新規性
データ駆動型視点評価モデルを提案し、学習データに基づいた視点選択を実現した。従来の手法では、手動で設計されたヒューリスティックな評価基準が用いられていたが、本研究では、学習により視覚ローカリゼーションに最適な視点を自動的に選択できるようになった。さらに、異なるエージェント間での視覚ローカリゼーションという、これまであまり研究されてこなかった課題に取り組み、その有効性を実験的に示した。シミュレーション実験と実環境での実験により、提案手法の汎用性と効果を検証した。
提案手法の効果
シミュレーション実験と実環境実験の両方で、提案するデータ駆動型モデルが、既存手法よりも高い自己位置推定精度を達成することを示した。特に、視点の変化が大きい環境や、障害物による遮蔽が多い環境において、その効果が顕著に現れた。また、提案手法は、オンラインでの実行が可能であり、実用的な視点選択を１秒以内に実行できる。実環境での実験では、アームに取り付けられたカメラを搭載した四脚ロボットを用い、様々な視点戦略を評価した。その結果、提案手法が最も高い精度で自己位置推定に成功した。

Autonomous Implicit Indoor Scene Reconstruction with Frontier Exploration

論文
https://ieeexplore.ieee.org/document/10611382
背景
屋内環境の3Dシーン再構成は、シーン可視化、ロボットナビゲーション、AR/VRコンテンツ作成など、多岐にわたる応用分野で重要である。近年、UAVなどの小型で機敏な航空機が登場し、近距離の航空画像を用いたシーン再構成への関心が高まっている。特に、陰関数表現（Implicit Neural Representations）は、3Dシーンの再構成において有望視されており、オンラインでの3D環境再構成と、データ取得のための最適な視点経路計画を可能にする。しかし、既存のNBV（Next Best View）法では、特に複雑なシーンにおいて、完全なシーンの網羅が保証されないという課題がある
課題
既存のNBVベースの自律的陰関数再構成手法は、局所最適に陥りやすく、特に大規模なシーンでは、不完全なシーンカバレッジになることがある。また、広い範囲の視点をサンプリングし、各視点における情報利得を計算する際の計算コストが増大するという課題がある。さらに、探査タスクと再構成タスクの協調には、効率と効果のトレードオフが必要であり、再構成タスクは探査タスクよりも計算コストが大きいため、各計画反復で再構成タスクを組み込むと計画時間が増加し、タスクの切り替えだけでは表面品質の低下やスキャン中の局所最適に陥る可能性がある。
提案手法
本論文では、フロンティアベースの探査タスクと、陰関数表面の不確実性に基づく再構成タスクを組み合わせた、自律的陰関数再構成手法を提案する。具体的には、色不確実性を用いた陰関数表面の不確実性を評価し、不確実性の高い表面領域をカバーする視点を優先的にサンプリングする。また、現在の近傍におけるフロンティア数に基づいて、視点経路計画におけるモード切り替えを行うことで、効率的なグローバルカバレッジと高品質な再構成を両立する。表面品質に基づいた情報利得計算と視点サンプリング戦略により、計算コストを削減しつつ、高品質な再構成を目指する。
新規性
フロンティアベースの探査タスクと、陰関数表面の不確実性に基づく再構成タスクを統合し、グローバルカバレッジと高品質再構成を両立した。また、表面の不確実性のみを評価することで、従来のボリュームベースの手法と比較して、情報利得計算と視点サンプリングの計算コストを削減した。さらに、適応的なモード切り替えにより、探査と再構成タスクのバランスを取り、効率的な視点経路計画を実現した。これらの要素を組み合わせた、自律的陰関数再構成のための新しいフレームワークを提案した点が新規性。
提案手法の効果
実験結果から、提案手法が他の計画手法と比較して最も高い再構成品質を達成し、再構成タスクを含む手法の中でも優れた計画効率を示すことが実証された。特に、表面不確実性の高い領域を優先的にスキャンすることで、効率的に詳細な再構成が可能になる。また、モード切り替えにより、探査速度を維持しながら、詳細なスキャンが可能になり、局所最適に陥ることを回避できる。実UAVを用いた実験でも、高品質なシーン再構成を達成できることが示されており、実環境における有効性も確認された。
コードなど
https://github.com/small-zeng/AIISRFE/tree/main

Probabilistic Active Loop Closure for Autonomous Exploration

論文
https://ieeexplore.ieee.org/document/10610213
背景
自律移動ロボットが屋内環境を探索し、自己位置推定とナビゲーションのための地図を作成する際、安定したポーズグラフと、ナビゲーション可能な領域を網羅する高品質な占有マップを同時に構築することが重要だ。従来の情報理論に基づく探索戦略はマップを迅速に探索できるが、マップの品質を考慮していない。特に、視覚SLAMシステムでは、探索中にポーズ推定がドリフトするため、アクティブなループクロージャ（ALC）を実行して、ポーズグラフの不確実性を低減する必要がある。
課題
従来の探索戦略では、マップの品質を直接考慮せずに探索が行われるため、特に視覚SLAMのドリフトによるマップの歪みが発生し、狭い通路を塞ぎ、マップ全体の探索を妨げる可能性がある。また、既存のALC手法では、視覚的に特徴的な場所（灯台）にのみロボットを誘導するため、マップに灯台が少ない場合、ロボットが長距離を移動する必要が生じ、移動中にマップが歪むリスクがある。さらに、灯台への移動が必ずしもポーズグラフの不確実性を最小化するとは限らず、マップ品質に問題が生じることもある。
提案手法
本論文では、屋内ロボットが探索中に安定したポーズグラフを維持し、マップ品質を向上させるための確率的ALCアルゴリズムを提案する。具体的には、ポーズグラフの不確実性を測定するための2種類の軽量な指標（距離ベースと事後共分散行列ベース）を導入。これらの指標を用いて、ループクロージャによって得られるポーズグラフの不確実性の低減量を予測する。また、ループクロージャを確率的な事象としてモデル化し、特定のキーフレームクラスタでループクロージャが得られる確率を推定し、不確実性低減量と確率を組み合わせた報酬関数を提案する。この報酬関数を最大化する場所を選択することで、ポーズグラフの不確実性を効果的に低減し、移動時間を短縮する。
新規性
ポーズグラフの不確実性を評価するための軽量な指標を提案した点が新規性。従来の指標は計算コストが高い一方、提案手法は計算負荷を低減し、ロボットのリアルタイム処理に適している。さらに、ループクロージャの発生を確率的な事象としてモデル化し、確率と不確実性低減量を統合した報酬関数を設計した。この報酬関数は、不確実性の低減だけでなく、ループクロージャの成功確率も考慮している点が特徴。また、分枝限定法を用いて、最大報酬を達成するキーフレームクラスタを効率的に探索する手法を提案した。
提案手法の効果
提案手法は、実機を用いた実験において、ポーズグラフの不確実性を効果的に低減し、マップ品質を向上させることが示された。特に、従来のALC手法と比較して、より適切な場所にループクロージャを誘導し、探索効率を向上させた。また、距離ベースの不確実性指標が、伝統的なグラフD最適性と同等の性能を発揮することを示した。さらに、実ロボットでの実験では、低計算リソースと狭視野のセンサーを使用した場合でも、効率的な探索とマップの歪み防止を達成した。

CARE: Confidence-Rich Autonomous Robot Exploration Using Bayesian Kernel Inference and Optimization

論文
https://ieeexplore.ieee.org/abstract/document/10243037
背景
ロボットの自律探査は、未知環境における地図作成やナビゲーションにおいて重要である。近年、情報理論に基づく手法が注目されており、相互情報量（MI）などの指標を用いて、最適なセンシング行動を決定する。従来のMIに基づく探査手法では、占有格子地図（OGM）を用いるのが一般的でだったが、近年では、より正確な情報尺度であるConfidence-Rich Mutual Information（CRMI）を用いた探査が提案されている。しかし、CRMIを正確に評価するには計算コストが大きいため、効率的な探査が課題であった。
課題
従来のCRMIに基づく探査手法では、候補となる行動をすべて評価する必要があり、計算コストが膨大であった。また、深層学習を用いた手法も提案されているが、オフラインでの大量の学習データが必要で、環境への適応性や汎化能力に課題があった。さらに、統計的学習を用いた手法も提案されているが、連続的な行動空間において、大域的な最適解を見つけることが難しいという問題点があった。特に、複雑な環境では、安全性と探査性能を維持するために、多くの行動を評価する必要があり、計算コストの増大が課題となっていた。
提案手法
本論文では、ベイズカーネル推論（BKI）とベイズ最適化（BO）を組み合わせた、効率的なCRMI推論手法を提案します。具体的には、まずガウス過程（GP）を用いて、明示的に評価した少数のサンプルからCRMIの予測モデルを学習する。次に、BKIを用いて、明示的なモデル学習なしにCRMIを推論し、BOを用いて、予測されたCRMI値と予測不確実性の両方を考慮した情報理論的な目的関数を最大化する。これにより、最も高いCRMI値を持つ行動（活用）と、予測分散の高い行動（探索）のバランスを取ることが可能となる。BKIは近似的な対数時間計算量で動作するため、GPよりも効率的にCRMIを推定できる。
新規性
- GPとBOに基づくCRMI推論（GPBO）を提案し、明示的に評価したサンプルからCRMI値を予測する
- BKIとBOに基づくCRMI推論（BKIO）を提案し、モデル学習なしに近似的な対数時間で効率的にCRMIを予測する
- CRMI値と予測不確実性を統合した情報理論的な目的関数を用いて、探索と活用のトレードオフを考慮した行動選択を実現する。従来の学習ベースの探索手法では、大量の学習データや複雑なモデルが必要でしたが、提案手法は学習コストを削減しつつ、効率的なCRMI予測を可能にする
提案手法の効果
提案手法の有効性は、数値シミュレーション、データセット、および実環境実験によって検証された。実験結果から、BKIOはGPBOと同等の探査性能を維持しながら、大幅な計算時間短縮を実現した。また、複雑な環境においても、提案手法は効率的に未知領域を探索し、高品質な地図作成を達成した。特に、BKIOは、他の手法と比較して、実環境での探査において、探索時間と地図の不確実性低減において優れた性能を示した。
コードなど
https://github.com/Shepherd-Gregory/BKIO-Exploration

Event-Based Stereo Visual Odometry with Native Temporal Resolution Via Continuous-Time Gaussian Process Regression

論文
https://ieeexplore.ieee.org/document/10238758?denied=
背景
Visual Odometry (VO) は、ロボットの自己位置推定に不可欠な技術であり、従来のフレームベースカメラを用いたVOシステムは、高速運動や低照度環境下ではモーションブラーやコントラストの低下により性能が低下する。一方、イベントベースカメラは、ピクセルごとの輝度変化を非同期的に検出し、変化が発生した時刻を記録するため、高い時間分解能とダイナミックレンジを持ち、これらの課題に対応できる。しかし、イベントベースカメラの非同期なイベント時刻を扱うことが課題であった。従来の手法では、時間的に近いイベントをグループ化して共通の時間で処理するため、イベントカメラ本来の時間分解能が犠牲になっていた。
課題
既存のイベントベースVOシステムでは、イベントデータをグループ化して離散的なフレームを生成し、従来のフレームベースVOパイプラインを適用する手法が主流であった。この手法では、個々のイベントの時刻情報が失われ、時間分解能が低下する。また、個々のイベント時刻を考慮した手法も存在しますが、運動モデルの制約や、外れ値除去と運動推定を同時に行うことによる誤差の問題があった。これらの課題を解決し、イベントカメラの本来の時間分解能を最大限に活用するVOシステムの実現が求められていた。
提案手法
本論文では、イベントベースカメラの非同期なタイムスタンプを直接利用し、グループ化や近似なしにカメラの運動を推定するVOシステムを提案する。具体的には、個々のイベント時刻を状態として、ホワイトノイズオン加速度（WNOA）運動事前分布を用いたガウス過程回帰により、カメラの運動を連続時間軌跡として推定する。また、モーション補償RANSAC（MC-RANSAC）を用いて外れ値を効果的に除去し、個々のイベント時刻を考慮した正確なトラジェクトリ推定を行う。この結果、イベントカメラの非同期性を最大限に活用し、任意の時刻でカメラのポーズをクエリ可能なVOシステムが実現する。
新規性
- 連続時間軌跡推定：イベントデータの非同期性を維持したまま、ガウス過程回帰で連続時間軌跡を推定するVOパイプラインを提案
- WNOA運動事前分布：物理的な根拠に基づいたWNOA運動事前分布を利用し、実世界の複雑な動きを正確にモデル化
- MC-RANSAC：個々のイベント時刻を考慮したMC-RANSACにより、外れ値除去の精度を向上
- フレームベースとイベントベース両方の特徴検出・追跡に対応：提案手法は、フレームベースとイベントベース両方の特徴検出・追跡に対応可能で、イベントカメラの性能を最大限に引き出す
- 既存手法との差別化：既存のイベントベースVO手法と比較して、時間分解能を維持しつつ、より正確で滑らかな軌跡推定を実現
提案手法の効果
提案手法の有効性は、MVSECデータセットを用いた実験で検証さた。実験結果から、提案手法は、既存のESVOと比較して、RMS相対誤差で2倍から4倍の性能向上を達成し、より滑らかな軌跡を推定することが示された。特に、複雑なカメラモーション（回転や往復運動）においても、提案手法はロバストな性能を発揮しました。また、時間分解能を維持したまま、より正確な軌跡推定が可能であることを定量的に示した。さらに、外れ値除去におけるMC-RANSACの効果も確認された。

MSCEqF: A Multi State Constraint Equivariant Filter for Vision-Aided Inertial Navigation

論文
https://arxiv.org/abs/2311.11649
背景
Visual-Inertial Navigation System (VINS) は、低コストなIMUとカメラのみを用いてロボットの自己位置と姿勢を推定する技術として近年注目を集めている。VINSには、Visual-Inertial Odometry (VIO) やVisual-Inertial Simultaneous Localization and Mapping (VI-SLAM) などがある。しかし、従来のVINSアルゴリズムは、特に誤差の蓄積や不整合といった問題に直面しており、ロバスト性や安定性の面で課題が残っていた。拡張カルマンフィルタ（EKF）を用いた手法は、非観測方向への過剰な情報ゲインにより、推定精度が低下する問題があった。また、IMUバイアスやカメラのキャリブレーション状態を考慮したInvariant Extended Kalman Filter (IEKF) が提案されているが、線形化点のずれや、初期値依存性などにより、性能が制限される場合があった
課題
従来のVINSアルゴリズムは、初期値やキャリブレーション誤差、予期せぬ外乱に対して脆弱であり、ロバスト性に欠けるという課題があった。特に、IMUバイアスやカメラの内部・外部パラメータの誤差は、推定精度に大きな影響を与える。また、First Estimate Jacobian (FEJ) や Observability Constraint (OC) などの手法が提案されているが、これらの手法は線形化点の操作や不観測方向への制約を必要とし、アルゴリズムの複雑化を招いていた。さらに、誤差共分散の調整や、初期化ルーチンなどの追加モジュールが必要であり、実環境での展開が難しいという問題点もあった。状態が収束した後、予期せぬ変化（キャリブレーションパラメータの急激な変化など）が発生した場合のロバスト性にも課題が残っていた
提案手法
本論文では、Multi State Constraint Equivariant Filter (MSCEqF) という新しいフィルタ設計を提案する。MSCEqFは、システム全体の対称性を利用することで、一貫性のある推定を実現する。具体的には、ナビゲーション状態とIMUバイアス、カメラの内部・外部パラメータをすべて含む対称性グループを定義し、このグループ構造に基づいてフィルタを設計する。これにより、線形化点のずれによる影響を軽減し、初期値や外乱に対するロバスト性を向上させる。また、MSCEqFは、状態の収束段階においても一貫性を維持し、誤差の共分散調整やその他の補正技術を必要としない。半直接積対称性グループを用いることで、他のフィルタタイプと比較して、線形化された誤差ダイナミクスが改善されている。
新規性
- 新しいEquivariant Filter設計：VIO問題に対し、カメラとIMUの自己キャリブレーション機能を備えた、新しいMSCEqFを提案
- 包括的な対称性グループの利用：ナビゲーション状態、IMUバイアス、カメラの内部・外部パラメータを含む包括的な対称性グループを定義し、フィルタ設計に利用することで、一貫性とロバスト性を向上
- ロバスト性の向上：従来のフィルタ設計と比較して、大きな絶対誤差や事前共分散を超える誤差に対するロバスト性を向上。特に、キャリブレーション誤差のような予期せぬ誤差に対しても、優れたロバスト性を示しました
- 既存手法との差別化：FEJやOCなどのヒューリスティックな手法を用いることなく、自然な一貫性を実現
- 解析的なフィルタ行列の導出：数値微分に頼らずに、解析的な形式でフィルタ行列を導出し、移植性と計算効率を向上
提案手法の効果
提案手法の有効性は、Euroc、TUM-VI、UZH-FPVの3つのデータセットを用いた実験で検証。実験結果から、MSCEqFは、従来のMSCKFベースのOpenVINSと比較して、より高いロバスト性を達成した。特に、カメラの外部パラメータに大きな誤差を初期値として与えた場合や、誤差が事前共分散を超えた場合でも、MSCEqFは安定した推定を維持した。さらに、MSCEqFは、収束速度の面でも優れており、キャリブレーションパラメータの収束が速いことが確認された。また、一貫性の評価においても、平均正規化誤差二乗（ANEES）が1.0付近で安定しており、不必要な補正なしに自然な一貫性を保つことが示された
コードなど
https://github.com/aau-cns/MSCEqF

L-VIWO: Visual-Inertial-Wheel Odometry Based on Lane Lines

論文
https://ieeexplore.ieee.org/abstract/document/10610139
背景
自動運転技術の発展に伴い、高精度な自己位置推定技術が求められてる。Visual-Inertial Odometry (VIO) は、低コストなカメラとIMUを用いるため注目されているが、スケールドリフトや環境変化による誤差が課題。Wheel Odometry (WO) を組み合わせた Visual-Inertial-Wheel Odometry (VIWO) が研究されているが、環境やセンサーの不確実性による誤差は依然として残る。特に、急な照度変化や動的物体の干渉は、特徴点マッチングに悪影響を与え、姿勢推定誤差を引き起こす。これらの誤差は、隣接フレーム間では小さいかもしれないが、時間経過とともに累積し、自己位置推定の精度を低下させる。
課題
従来のVIWOは、車輪エンコーダの導入により位置推定精度が向上するものの、環境やセンサーの不確実性による誤差を完全に排除することはできなかった。道路標識などの特徴を利用した手法も提案されているが、高精度な事前地図が必要であったり、道路表面の標識の制約が考慮されていなかった。また、VIOのスケール不確定性は、一定加速度運動において顕著であり、車輪エンコーダを併用することでスケールドリフトを抑制できるものの、累積誤差の問題は残る。さらに、既存の道路標識ベースの手法は、高精度な地図と対応付ける必要があり、地図構築時の誤差も考慮する必要があった。
提案手法
本論文では、レーンラインの持つ長期的な安定性に着目し、L-VIWOという新しい手法を提案する。L-VIWOは、レーンラインの横方向の制約を利用して車両の位置を補正し、姿勢最適化を行う。具体的には、レーンラインの追跡と地図構築を同時に行い、複数フレームのレーンラインデータから信頼性の高い地図を構築する。さらに、隣接レーンラインの曲率特性を利用してレーンラインサンプル点の位置を最適化し、自己位置推定の精度向上を目指する。また、車線変更を検出した際に、レーンラインマップを用いて車両の位置を補正し、姿勢グラフ最適化モデルを構築することで、姿勢推定を最適化する。
新規性
- レーンライン追跡と地図構築：レーンラインの特徴を利用し、特別な検出ネットワークなしに、複数フレームのレーンラインデータからレーンラインサンプル点の位置を最適化し、信頼性の高いレーンラインマップを構築
- レーンライン制約に基づく姿勢最適化：レーンラインの横方向の制約を利用し、オドメトリの累積誤差を軽減する姿勢最適化手法を提案
- 事前地図不要：レーンラインマップの構築と姿勢最適化を同時に行うため、事前地図を必要としない
- 一般データセットでの有効性検証：一般データセットを用いて、提案手法の有効性を検証した
- 既存手法への適用可能性：提案する姿勢最適化手法が、VINS-FusionやORB-SLAM3にも適用可能であることを示した
提案手法の効果
提案手法の有効性は、KAISTデータセットを用いた実験で検証した。実験結果から、提案手法は、従来のVIWOと比較して、自己位置推定精度を大幅に向上させることが示された。特に、urban38およびurban39シーケンスでは、それぞれ13％および15％の精度向上を達成した。さらに、レーンラインマップの連続性が向上し、マッピング誤差が効果的に減少することが確認された。また、複数フレームのレーンラインデータと左右レーンラインの曲率制約の両方を用いた補正が、システム全体の精度向上に貢献していることが示された。さらに、VINS-FusionやORB-SLAM3に提案手法を導入することで、自己位置推定精度が向上することも確認された。

Mapping I

Augmenting Lane Perception and Topology Understanding with Standard Definition Navigation Maps

3QFP: Efficient Neural Implicit Surface Reconstruction Using Tri-Quadtrees and Fourier Feature Positional Encoding

Towards Large-Scale Incremental Dense Mapping Using Robot-Centric Implicit Neural Representation

Camera Relocalization in Shadow-Free Neural Radiance Fields

QuadricsNet: Learning Concise Representation for Geometric Primitives in Point Clouds

ERASOR++: Height Coding Plus Egocentric Ratio Based Dynamic Object Removal for Static Point Cloud Mapping

H2-Mapping: Real-Time Dense Mapping Using Hierarchical Hybrid Representation

Uncertainty-Aware 3D Object-Level Mapping with Deep Shape Priors

RoboHop: Segment-Based Topological Map Representation for Open-World Visual Navigation

Mapping II

Scene Action Maps: Behavioural Maps for Navigation without Metric Information

Continuous Occupancy Mapping in Dynamic Environments Using Particles

Building Volumetric Beliefs for Dynamic Environments Exploiting Map-Based Moving Object Segmentation

Fast and Robust Normal Estimation for Sparse LiDAR Scans

OmniColor: A Global Camera Pose Optimization Approach of LiDAR-360Camera Fusion for Colorizing Point Clouds

Gaussian Process Mapping of Uncertain Building Models with GMM As Prior

Occupancy Grid Mapping without Ray-Casting for High-Resolution LiDAR Sensors

RH-Map: Online Map Construction Framework of Dynamic Object Removal Based on 3D Region-Wise Hash Map Structure

Photometric LiDAR and RGB-D Bundle Adjustment

Localization I

Salience-Guided Ground Factor for Robust Localization of Delivery Robots in Complex Urban Environments

Block-Map-Based Localization in Large-Scale Environment

Subsurface Feature-Based Ground Robot/Vehicle Localization Using a Ground Penetrating Radar

Colmap-PCD: An Open-Source Tool for Fine Image-To-Point Cloud Registration

COIN-LIO: Complementary Intensity-Augmented LiDAR Inertial Odometry

MegaParticles: Range-Based 6-DoF Monte Carlo Localization with GPU-Accelerated Stein Particle Filter

Tightly Coupled Range Inertial Localization on a 3D Prior Map Based on Sliding Window Factor Graph Optimization

SPOT: Point Cloud Based Stereo Visual Place Recognition for Similar and Opposing Viewpoints

Localization II

TP3M: Transformer-Based Pseudo 3D Image Matching with Reference Image

Adaptive Outlier Thresholding for Bundle Adjustment in Visual SLAM

From Satellite to Ground: Satellite Assisted Visual Localization with Cross-View Semantic Matching

Self-Supervised Learning of Monocular Visual Odometry and Depth with Uncertainty-Aware Scale Consistency

Unifying Local and Global Multimodal Features for Place Recognition in Aliased and Low-Texture Environments

RELEAD: Resilient Localization with Enhanced LiDAR Odometry in Adverse Environments

Semantic-Focused Patch Tokenizer with Multi-Branch Mixer for Visual Place Recognition

FF-LINS: A Consistent Frame-To-Frame Solid-State-LiDAR-Inertial State Estimator

VioLA: Aligning Videos to 2D LiDAR Scans

Localization III

WayIL: Image-Based Indoor Localization with Wayfinding Maps

TransAPR: Absolute Camera Pose Regression with Spatial and Temporal Attention

Globalizing Local Features: Image Retrieval Using Shared Local Features with Pose Estimation for Faster Visual Localization

Leveraging Neural Radiance Fields for Uncertainty-Aware Visual Localization

JIST: Joint Image and Sequence Training for Sequential Visual Place Recognition

OptiState: State Estimation of Legged Robots Using Gated Networks with Transformer-Based Vision and Kalman Filtering

Pose-Graph Attentional Graph Neural Network for Lidar Place Recognition

ColonMapper: Topological Mapping and Localization for Colonoscopy

Simultaneous Localization and Actuation Using Electromagnetic Navigation Systems

Localization IV

A Coarse-To-Fine Place Recognition Approach Using Attention-Guided Descriptors and Overlap Estimation

LHMap-Loc: Cross-Modal Monocular Localization Using LiDAR Point Cloud Heat Map

LocNDF: Neural Distance Field Mapping for Robot Localization

Looking beneath More: A Sequence-Based Localizing Ground Penetrating Radar Framework

Increasing SLAM Pose Accuracy by Ground-To-Satellite Image Registration

EffLoc: Lightweight Vision Transformer for Efficient 6-DOF Camera Relocalization

SAGE-ICP: Semantic Information-Assisted ICP

HR-APR: APR-Agnostic Framework with Uncertainty Estimation and Hierarchical Refinement for Camera Relocalisation

Implicit Learning of Scene Geometry from Poses for Global Localization

Localization V

Visual Localization in Repetitive and Symmetric Indoor Parking Lots Using 3D Key Text Graph

VPRTempo: A Fast Temporally Encoded Spiking Neural Network for Visual Place Recognition

17-Point Algorithm Revisited: Toward a More Accurate Way

AnyLoc: Towards Universal Visual Place Recognition

Lightweight Ground Texture Localization

NeRF-VINS: A Real-Time Neural Radiance Field Map-Based Visual-Inertial Navigation System

Night-Rider: Nocturnal Vision-Aided Localization in Streetlight Maps Using Invariant Extended Kalman Filtering

Localization VI

GPS-VIO Fusion with Online Rotational Calibration

Fully Onboard Low-Power Localization with Semantic Sensor Fusion on a Nano-UAV Using Floor Plans

The LuViRA Dataset: Synchronized Vision, Radio, and Audio Sensors for Indoor Localization

Dual-IMU State Estimation for Relative Localization of Two Mobile Agents

Accurate Prior-Centric Monocular Positioning with Offline LiDAR Fusion

A Nonlinear Estimator for Dead Reckoning of Aquatic Surface Vehicles Using an IMU and a Doppler Velocity Log

Range-Visual-Inertial Sensor Fusion for Micro Aerial Vehicle Localization and Navigation

An Equivariant Approach to Robust State Estimation for the ArduPilot Autopilot System

Robust Indoor Localization with Ranging-IMU Fusion

Localization VII

Multimodal Indoor Localization Using Crowdsourced Radio Maps

CLIP-Loc: Multi-Modal Landmark Association for Global Localization in Object-Based Maps

Multiple Update Particle Filter: Position Estimation by Combining GNSS Pseudorange and Carrier Phase Observations

Robust Lifelong Indoor LiDAR Localization Using the Area Graph

Multi-Camera Asynchronous Ball Localization and Trajectory Prediction with Factor Graphs and Human Poses

Doppler-Only Single-Scan 3D Vehicle Odometry

Do We Need Scan-Matching in Radar Odometry?

Outram: One-Shot Global Localization Via Triangulated Scene Graph and Global Outlier Pruning

Fast and Consistent Covariance Recovery for Sliding-Window Optimization-Based VINS

Localization and Mapping I

A Vision-Centric Approach for Static Map Element Annotation

VBR: A Vision Benchmark in Rome

Spatial-Aware Dynamic Lightweight Self-Supervised Monocular Depth Estimation

VDNA-PR: Using General Dataset Representations for Robust Sequential Visual Place Recognition

NISB-Map: Scalable Mapping with Neural Implicit Spatial Block

Regressing Transformers for Data-Efficient Visual Place Recognition

On the Study of Data Augmentation for Visual Place Recognition

Enhancing Visual Place Recognition with Multi-Modal Features and Time-Constrained Graph Attention Aggregation

MBFusion: A New Multi-Modal BEV Feature Fusion Method for HD Map Construction

Localization and Mapping II

Quantized Visual-Inertial Odometry

OCC-VO: Dense Mapping Via 3D Occupancy-Based Visual Odometry for Autonomous Driving

NF-Atlas: Multi-Volume Neural Feature Fields for Large Scale LiDAR Mapping

Dusk Till Dawn: Self-Supervised Nighttime Stereo Depth Estimation Using Visual Foundation Models

SiLVR: Scalable Lidar-Visual Reconstruction with Neural Radiance Fields for Robotic Inspection

LESS-Map: Lightweight and Evolving Semantic Map in Parking Lots for Long-Term Self-Localization

Observation Time Difference: An Online Dynamic Objects Removal Method for Ground Vehicles

RO-MAP: Real-Time Multi-Object Mapping with Neural Radiance Fields

OctoMap-RT: Fast Probabilistic Volumetric Mapping Using Ray-Tracing GPUs

Localization and Navigation

An Onboard Framework for Staircases Modeling Based on Point Clouds

V-STRONG: Visual Self-Supervised Traversability Learning for Off-Road Navigation

Follow the Footprints: Self-Supervised Traversability Estimation for Off-Road Vehicle Navigation Based on Geometric and Visual Cues

Learning to Predict Navigational Patterns from Partial Observations

TSCM: A Teacher-Student Model for Vision Place Recognition Using Cross-Metric Knowledge Distillation

3D-BBS: Global Localization for 3D Point Cloud Scan Matching Using Branch-And-Bound Algorithm

DynaInsRemover: A Real-Time Dynamic Instance-Aware Static 3D LiDAR Mapping Framework for Dynamic Environment

Learning Semantic-Agnostic and Spatial-Aware Representation for Generalizable Visual-Audio Navigation

Efficient 3D Instance Mapping and Localization with Neural Fields

Learning in Localization and Navigation

BioSLAM: A Bio-Inspired Lifelong Memory System for General Place Recognition

Efficient Hierarchical Reinforcement Learning for Mapless Navigation with Predictive Neighbouring Space Scoring

Learning Diverse Skills for Local Navigation under Multi-Constraint Optimality

Snake Robot with Tactile Perception Navigates on Large-Scale Challenging Terrain

RaLF: Flow-Based Global and Metric Radar Localization in LiDAR Maps

VPE-SLAM: Neural Implicit Voxel-Permutohedral Encoding for SLAM

Zero-Shot Wireless Indoor Navigation through Physics-Informed Reinforcement Learning

An Environmental-Complexity-Based Navigation Method Based on Hierarchical Deep Reinforcement Learning

Pre-Trained Masked Image Model for Mobile Robot Navigation

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up