画像1枚でAIが場所を当てる？Gemini + Google Maps で作るリバースジオロケーションアプリ

Posted at 2025-06-17

はじめに

こんにちは！ノベルワークスのザワッチです！

写真を見ただけでその場所がどこか分かる人、いますよね。

旅行好きの友人とか、地理に詳しい人とか。

ということで、今回は、画像を1枚アップロードするだけで、AIが「ここは〇〇です！」って場所を特定してくれるWebアプリを作ってみました。

きっかけは、友人から「この写真どこで撮ったか覚えてる？」って聞かれてわかんなかったこと。

既存のサービスや仕組みはあるのですが、もっと詳細な解析結果とか、地図上でのビジュアライゼーションとか、技術的な興味で自分で作ってみたくなりました。

最近のGoogle AI Studioでは、ぽいことはできるんですが、やっぱり自分でカスタマイズして作ってみたいと思いました。

「ReverseGeo」という名前で、画像から場所を逆算（リバースジオロケーション）するWebアプリを開発しました。

GeoGuessrにインスピレーションをとても受けています
https://www.geoguessr.com

画像に映っている文字もOCRしてくれて、テキスト生成してくれるのでインサイトがすさまじいです。

これ、モードによって精度が全然違って、Groundingとかでは最新のニュースやWebの情報も参考にするので、「最近できた建物」とかもいける感じですね。

WebRTCを使ってカメラ映像をリアルタイムで解析します。

100msごとにフレームをキャプチャするのですが、フレームレートとAPI呼び出し頻度のバランスが重要

あまり頻繁だとAPI制限に引っかかって、遅すぎるとリアルタイム感がなくなる。

100msごとというのが、Geminiと格闘した結果のベストバランスです。

カメラを色々な方向に向けながら、リアルタイムで場所が変わっていくのを見るのは結構楽しいです。

3Dマップがかなりカッコいいです。特に都市部だと建物も立体的に表示されるので、臨場感があります。

JavascriptAPIで提供されていたので、Google Cloudのプロジェクトを作って、Google MapsAPIを有効化して、APIキーを発行しました。

DuckDB WASMを使って、ブラウザ内で履歴データを管理。

こちらの記事でも使ったので、詳細はこちらに↓

トップ画面はこんな感じです。

ライブモードでもやりたかったのですが、人も移っちゃうので今回は勘弁🥶

東京駅
流石です。
何もテキストないけど、東京駅と言えば見たいな画像なのでめっちゃ学習されてそう。
渋谷スクランブル交差点
いいっすね！
やっぱり特徴的なのか。
エッフェル塔
むしろ海外のほうがいっぱい学習されるので得意ですよね。
1秒くらいで出てきました。
マチュピチュ
さすがにきついかなと思いきや、難なくクリア。
出力の中の追加説明で勉強にもなった。
天神橋筋商店街
弊社のオフィス近くにある天神橋筋商店街、さすがに天下のGoogleでも日本の商店街までは網羅してないと思いきや、ほぼニアピン。
近くの学校の校庭を指してた
グラングリーン大阪
今年の春にできたグラングリーン大阪。さすがに新しすぎてAIも学習してないはず。
と思いきや、ちゃんと当ててきたって。
弊社にあるジムスペース
建物内部はかなり特徴的じゃないと、安直な回答をしてしまう。
これだと、一見ただのジムのスペースとして認識してしまって、考えるのをやめてしまう。
AIに「こんなに簡単でいいのか」みたいな内省の仕組みがいりそうな感じ。