1. 概要
多視点カメラ画像を使って三次元再構成を行う際に、視覚的な画像特徴が非常に似通っている建造物は三次元空間での位置合わせを失敗させる原因になる。例えば、凱旋門のように表と裏の異なる門を撮影してもほとんど同じ画像特徴を示すケースで問題になることが多い。この論文では、視覚的に類似した画像のペアが同じか異なる3D表面を描いているかを判断する技術を提案している。
2. 新規性
学習ベースのアプローチを用いた視覚的な曖昧性解消の手法を提案しており、これを画像ペアのバイナリ分類タスクとしてモデル化している。また、新しいデータセット"Doppelgangers"を公開している。データセットには、似たような構造の画像ペアが含まれており各ペアに対する正解ラベルが提供されている。対称性を持つ222の建造物について、100万枚のラベル付きのペア(17.8万枚の類似建造物)を含む。
3. 実現方法
局所的なキーポイントとマッチングの空間分布を入力とするネットワークアーキテクチャが設計されており、これにより局所的にも大局的にも手がかりになる特徴を抽出できる。
見かけが類似している場合、キーポイントが同様のマーカーに集中するが、マッチングできた場所であれば同じ物体の同じ方向から撮影されたものだと判断する。もし、キーポイントが存在するがマッチングしない場合は、同じ建物でも異なる3D表面を撮影している可能性が高い。
4. 結果
非常に類似度の高い建造物でも見分けることができ、これをSfM(Structure from Motion)に統合して三次元再構成を高精度に生成できることを示している。
last updates: Oct 9 2023