1. 概要
画像からどの場所が映されているかいるか予測するタスクをVision Place Recognition(VPR)と呼び、クエリとなる画像から参照画像とCNNなどの高次元特徴で比較して画像特徴の対応点をRANSAC(RANdom SAmple Consensus)を用いてそれぞれ独立に求めることが多い。この研究では、トランスフォーマーを用いて抽出された高次元特徴に含まれる局所的な特徴の相関やアテンションの値自身も画像特徴の対応点検索と類似度のランキングに反映されるようにした。
2. 新規性
対応点のマッチングスコアにトランスフォーマーの特徴量を反映させることで、クエリと参照画像との間の重要な局所特徴のペアの相関を学習できるようになった。
3. 実現方法
トランスフォーマーを用いたパッチレベルの特徴点検索とランキングを実現するために、特徴量の相関情報、アテンションの値、XY座標の情報を用いて画像ペアが同じ場所のものかどうかを判別できるよう学習する。クエリと参照画像にはVision Transformerが用いられて汎用的な画像検索に有用な特徴の取得方法が学習され、エンコーダーのアテンションマップを使って各パッチ座標の特徴の相関を求め、これをランキングに反映する。ランキングスコアの予測に用いるネットワークにもトランスフォーマーが使用されておりクロスエントロピーロスが用いられている。
4. 結果
従来手法よりも少ない推論時間とメモリ消費量で、従来手法よりも高精度にVPRのタスクを解くことができている。
last updates: June 23 2023