Introduction to Large-Scale Visual Geo-Localization まとめ #AR

Springerの論文集「Large-Scale Visual Geo-Localization (2016)」のChapter1、
「Introduction to Large-Scale Visual Geo-Localization」をまとめる。（個人的に読み返したい部分）
http://www.springer.com/gb/book/9783319257792

これからのARには重要な分野。ただし、ARKitなど汎用的なSDKですぐに実装できるものではなく、研究レベルで進めていく必要がある。
歴史的な背景もわかり、この分野の包括的なsurveyになった。
まとめた部分(Introduction)の原著はここでプレビューできる。
https://books.google.co.jp/books?id=DTqlDAAAQBAJ&pg=PA7&lpg=PA7&dq=3d+textured+model+localization+image&source=bl&ots=3xIrfTfznn&sig=tpDGR3okj1odNCupVLfW8BHdXuo&hl=en&sa=X&ved=0ahUKEwiv9ujOi8zVAhXKfbwKHTtwBnMQ6AEIRjAF#v=onepage&q=3d%20textured%20model%20localization%20image&f=false
気になったところはリンクを辿って読む方針でお願いします。

1.2 central themes and topics

Large-Scale Visual Geo-Localizationは2000年代初頭に研究され始めた。
はじめは衛星写真と航空写真を使っての研究だったが、
スマホなどの普及とともに、Web上の大量の写真を使った研究にshiftしていく。
それに伴って、以下のようなチャレンジングな研究課題が。
・Large-Scale Data Handling　大量の画像の扱い
・Necessity of an accurate geo-location　正確な位置推定
・Ambiguity and excessive similarity of visual features　画像的な特徴の曖昧さ・過度の類似性
・Undesirable photography effects　不要な画像の混入
・Lack of unified reference data　リファレンスデータが統一されていない
この本は、以下の４つのテーマに分けて構成されている。

1.2.1 Data-Driven Geo-localization

「Web-scaleのデータの活用 for 位置推定、地理的情報の抜き出し」について。
画像検索と位置推定は、同じようなことをやりそうだが、以下の点で異なっている。
・画像検索は似ている画像を大量に見つけなくちゃだが、位置推定のためには大量に見つける必要はない。
・画像検索は似ている画像を見つけるが、位置推定はほぼ同じ画像を見つけなくてはいけない。
このため、位置推定のために、売られている画像検索や画像マッチングの手法はそのまま使えず、研究し、作るしかない。
以下のような分野が研究されてる。
・geo-localizationができる範囲を広げる
・地理的情報をうまく表す特徴

1.2.2 Semantic Geo-localization

もっと高いレベルの情報の活用について。文字だったり、車の種類だったり。
the view from your window contestっていうのがある。
GIS-assisted Object Detection and geospatial localizationはGISのデータを使うことでいい成績。
https://www.youtube.com/watch?v=33TWyoAKkP0
データベースとしては、GIS、Wikipedia、Wikimapiaなど。
この分野の主な課題は以下の３つに集約される。
・どんな特徴を使うか
・それをどうやってマッチングするか
・複数の手がかりをどうやって統合するか

1.2.3 Geometric Matching-Based Geo-localization

クエリの画像を、3dモデルとかエレベーションモデルにマッチング。DEMはdigital elevation modelの略。
上の２つに対して、より高精度なgeo-localizationを目指す。
この方法には２つのステップがある
１、3Dモデルを作る（主にSfM）。
２、作った3Dモデルと画像をマッチングする。
参照する3Dモデルの精度ごとに、以下のような研究がされている
・高精度なRGB-textured modelとのマッチング
Chap8, 10で、large-scale pointcloudがどうやって作られるか、どうやってサイズを小さくできるか
Chap9で、少ない計算コストで2d-3dマッチングの精度を改善するにはどうしたらいいか
Chap14で、絵と3dモデルのマッチングなど、拡張について
・textureも色もないポイントクラウドとのマッチング
高精度な3DモデルはSfMから作られるが、SfMをするには大量の画像が必要。人が多い地域のみ可能。
一方、地球上のどの場所においても、衛星からの写真をもとに作られた、
DEM (Digital Elevation Model)、DTM (Digital Terrain Model)などは利用できる。
この分野で難しいのは、「画像のどの特徴が効果的か」と「どうやってlarge-scaleから検索するか」。
Chap11, 12, 13で、山や砂漠といったこれらの手法が必要な場合の話。

1.2.4 Real-World Applications

ここまで紹介した技術は実際どうやって使われるのか。
実際のところ、スマホで撮られるような写真にはGPS情報が付加されていて、geo-locationの初期位置がわかっている。
A memory efficient discriminative approach for location aided recognition (ECCV 2012) は、
GPS情報だけをサーバーに送って、周りの情報を返してもらうことで、画像をアップロードする場合に比べて低遅延。
http://dl.acm.org/citation.cfm?id=2403331

1.3 Emerging Trends

Large-Scale Visual Geo-Localizationは、急速に発展している分野。
これは主に、新しいデータの登場、それにともなった新しいアプリケーション、新しい技術の登場などによる。
以下、新しいトレンドについて。

1.3.1 New Geo-Referenced Data Resources

データのshiftとして、近年ではドローン。その前には携帯電話。
また、衛星写真の精度も上がっている。地上レベルで、0.35m以下のずれ。1日以下の周期で同じ場所に戻って再撮影。
Satellite Imaging Corporation http://www.satimagingcorp.com/
DigitalGlobe https://www.digitalglobe.com/
digitalglobeのマップは40以上の政府が信頼して利用している。
こういったデータは、用途に合わせて急速に変化し続けている。

1.3.2 Temporal Geo-Localization and New Application

whenはwhereくらい大事。
Scene Chronology (ECCV 2014) は、4D reconstruction。
https://www.youtube.com/watch?v=lVfx3Q5fpeU

1.3.3 Deep Learning Based Geo-Localization

deep learningにはいろんな可能性が。
Wide-Area Image Geolocalization with Aerial Reference Imagery (ICCV 2015) は、ground-levelの写真をクエリにして、
航空写真のデータベースから位置を特定する。コードもある。
https://github.com/scottworkman/deeplyfound
Deep Learningの特徴を考えると、cross view/cross modalityのマッチングや、end-to-endの地理的特徴の学習、
RNNを使った時間を考慮したgeo-localizationなどが期待できる。