Springerの論文集「Large-Scale Visual Geo-Localization (2016)」のChapter1、
「Introduction to Large-Scale Visual Geo-Localization」をまとめる。(個人的に読み返したい部分)
http://www.springer.com/gb/book/9783319257792
これからのARには重要な分野。ただし、ARKitなど汎用的なSDKですぐに実装できるものではなく、研究レベルで進めていく必要がある。
歴史的な背景もわかり、この分野の包括的なsurveyになった。
まとめた部分(Introduction)の原著はここでプレビューできる。
https://books.google.co.jp/books?id=DTqlDAAAQBAJ&pg=PA7&lpg=PA7&dq=3d+textured+model+localization+image&source=bl&ots=3xIrfTfznn&sig=tpDGR3okj1odNCupVLfW8BHdXuo&hl=en&sa=X&ved=0ahUKEwiv9ujOi8zVAhXKfbwKHTtwBnMQ6AEIRjAF#v=onepage&q=3d%20textured%20model%20localization%20image&f=false
気になったところはリンクを辿って読む方針でお願いします。
1.2 central themes and topics
Large-Scale Visual Geo-Localizationは2000年代初頭に研究され始めた。
はじめは衛星写真と航空写真を使っての研究だったが、
スマホなどの普及とともに、Web上の大量の写真を使った研究にshiftしていく。
それに伴って、以下のようなチャレンジングな研究課題が。
・Large-Scale Data Handling 大量の画像の扱い
・Necessity of an accurate geo-location 正確な位置推定
・Ambiguity and excessive similarity of visual features 画像的な特徴の曖昧さ・過度の類似性
・Undesirable photography effects 不要な画像の混入
・Lack of unified reference data リファレンスデータが統一されていない
この本は、以下の4つのテーマに分けて構成されている。
1.2.1 Data-Driven Geo-localization
「Web-scaleのデータの活用 for 位置推定、地理的情報の抜き出し」について。
画像検索と位置推定は、同じようなことをやりそうだが、以下の点で異なっている。
・画像検索は似ている画像を大量に見つけなくちゃだが、位置推定のためには大量に見つける必要はない。
・画像検索は似ている画像を見つけるが、位置推定はほぼ同じ画像を見つけなくてはいけない。
このため、位置推定のために、売られている画像検索や画像マッチングの手法はそのまま使えず、研究し、作るしかない。
以下のような分野が研究されてる。
・geo-localizationができる範囲を広げる
・地理的情報をうまく表す特徴
1.2.2 Semantic Geo-localization
もっと高いレベルの情報の活用について。文字だったり、車の種類だったり。
the view from your window contestっていうのがある。
GIS-assisted Object Detection and geospatial localizationはGISのデータを使うことでいい成績。
https://www.youtube.com/watch?v=33TWyoAKkP0
データベースとしては、GIS、Wikipedia、Wikimapiaなど。
この分野の主な課題は以下の3つに集約される。
・どんな特徴を使うか
・それをどうやってマッチングするか
・複数の手がかりをどうやって統合するか
1.2.3 Geometric Matching-Based Geo-localization
クエリの画像を、3dモデルとかエレベーションモデルにマッチング。DEMはdigital elevation modelの略。
上の2つに対して、より高精度なgeo-localizationを目指す。
この方法には2つのステップがある
1、3Dモデルを作る(主にSfM)。
2、作った3Dモデルと画像をマッチングする。
参照する3Dモデルの精度ごとに、以下のような研究がされている
・高精度なRGB-textured modelとのマッチング
Chap8, 10で、large-scale pointcloudがどうやって作られるか、どうやってサイズを小さくできるか
Chap9で、少ない計算コストで2d-3dマッチングの精度を改善するにはどうしたらいいか
Chap14で、絵と3dモデルのマッチングなど、拡張について
・textureも色もないポイントクラウドとのマッチング
高精度な3DモデルはSfMから作られるが、SfMをするには大量の画像が必要。人が多い地域のみ可能。
一方、地球上のどの場所においても、衛星からの写真をもとに作られた、
DEM (Digital Elevation Model)、DTM (Digital Terrain Model)などは利用できる。
この分野で難しいのは、「画像のどの特徴が効果的か」と「どうやってlarge-scaleから検索するか」。
Chap11, 12, 13で、山や砂漠といったこれらの手法が必要な場合の話。
1.2.4 Real-World Applications
ここまで紹介した技術は実際どうやって使われるのか。
実際のところ、スマホで撮られるような写真にはGPS情報が付加されていて、geo-locationの初期位置がわかっている。
A memory efficient discriminative approach for location aided recognition (ECCV 2012) は、
GPS情報だけをサーバーに送って、周りの情報を返してもらうことで、画像をアップロードする場合に比べて低遅延。
http://dl.acm.org/citation.cfm?id=2403331
1.3 Emerging Trends
Large-Scale Visual Geo-Localizationは、急速に発展している分野。
これは主に、新しいデータの登場、それにともなった新しいアプリケーション、新しい技術の登場などによる。
以下、新しいトレンドについて。
1.3.1 New Geo-Referenced Data Resources
データのshiftとして、近年ではドローン。その前には携帯電話。
また、衛星写真の精度も上がっている。地上レベルで、0.35m以下のずれ。1日以下の周期で同じ場所に戻って再撮影。
Satellite Imaging Corporation http://www.satimagingcorp.com/
DigitalGlobe https://www.digitalglobe.com/
digitalglobeのマップは40以上の政府が信頼して利用している。
こういったデータは、用途に合わせて急速に変化し続けている。
1.3.2 Temporal Geo-Localization and New Application
whenはwhereくらい大事。
Scene Chronology (ECCV 2014) は、4D reconstruction。
https://www.youtube.com/watch?v=lVfx3Q5fpeU
1.3.3 Deep Learning Based Geo-Localization
deep learningにはいろんな可能性が。
Wide-Area Image Geolocalization with Aerial Reference Imagery (ICCV 2015) は、ground-levelの写真をクエリにして、
航空写真のデータベースから位置を特定する。コードもある。
https://github.com/scottworkman/deeplyfound
Deep Learningの特徴を考えると、cross view/cross modalityのマッチングや、end-to-endの地理的特徴の学習、
RNNを使った時間を考慮したgeo-localizationなどが期待できる。