1. 概要
物体までの距離を測定するためのセンサーとして、Time-of-Flight(ToF)が知られる。ToFセンサーでは、発信された光や電磁波・赤外光が対象物体に当たり、反射して戻ってくるまでの時間を計測することで物体までの測距を行う。特に軽量なToFセンサーを用いた深度推定は、モバイルデバイスでのオートフォーカスや障害物検出のタスクによく使われる。一方で、深度測定値が疎でノイズが多く三次元再構成などの正確な測距が必要なタスクには用いることができなかった。この論文では、単眼カメラと軽量なToFセンサーという異なるモダリティ情報を用いて初めてSLAM(Simultaneous Localization and Mapping)を実現した。
2. 新規性
軽量なToFセンサーとRGBカメラ情報を用いることでマルチモーダル処理可能な深度推定手法を提案しており、ToFセンサー自体は低解像度で安価なデバイスにもかかわらず、三次元再構成されるシーンは密な情報を補完している。
3. 実現方法
物体の形状や外観(シーン内の環境の詳細な形状・テクスチャなど)を明示的にモデル化するのではなく、物体やシーンに関する情報をニューラルネットワークで学習するImplicit Representation Learningを用いてシーンの特徴や属性を暗黙的にエンコードしている。レンダリングには粒度を持たせており、ラフなシーンから詳細までCoarse-to-Fineで最適化できるようになっている。また、レンダリング結果と入力の生データを比較してロスを設計している。精度を向上させるため、ToFセンサーの信号に含まれるノイズを除去するために時間情報を用いている。
4. 結果
カメラトラッキング・シーン再構成共に、既存研究よりも高精度に推論できている。
last updates: Oct 8 2023