はじめに
最近、子供がGeoGusserにハマっています。
生成AIにGeoGuessrをやらせたら、どれぐらい当てられるんだろう?
と思ったので試してみることにしました。
GeoGuessr
GeoGuessrはストリートビュー画像を見て場所を推測するゲームです。
人間の場合、
- 電柱の形
- 道路標識
- 車線
- 建物
- 看板の文字
などを手掛かりに国や地域を推測します。
やってみた
実際にGeoGuessrの画像をChatGPTに入力し、
- どの程度場所を当てられるのか
- 何を根拠に推測しているのか
- どのように画像を理解しているのか
を調べてみました。
第1問
GeoGuessrの画面キャプチャをChatGPTに入力してみます。
一見なんの手がかりも無さそうですが、、
AIの解答を元にピンを置いてみたところ、割と正解に近かったです(国は合っている)。

第2問
さらに手がかりが無さそうです。
おおよその場所を特定してくれましたが、第1問ほど具体的な根拠は示されませんでした。

生成AIは、どのような仕組みで画像を扱っているのか?
理由もそれっぽく生成AIは画像を理解しているように見えました。
そもそも生成AIはどのような仕組みで画像を扱っているのか良く分かっていないので、少し調べてみました。
Vision Encoderについて
調べてみると、現在のマルチモーダルLLMは概ね次のような構成になっているようです。(視覚言語モデルの仕組み)
画像
↓
Vision Encoder
↓
LLM
↓
回答
画像を理解しているのはVision Encoderという別の仕組みで、LLMがその結果を受け取って文章を生成しているようです。
Vision Encoderは何をしているのか
Vision Encoderとは、
「画像をAIが扱いやすい数値データへ変換する仕組み」
のようです。
「画像を特徴ベクトルへ変換する」
「画像の意味を表現する特徴表現を生成する」
という説明がでてきます。
PixelBank というページの解説(https://pixelbank.dev/vlm-study-plan/chapter/2)には、
Vision Encoderは、生のピクセルデータを画像の意味を表現する特徴ベクトルへ変換する役割を持つ
というようなことが記載されていました。
人間が画像を見て
- 電柱がある
- 道路がある
- 看板がある
と認識するように、AIも画像の中の特徴を抽出しているということだと理解しました
ViT(Vision Transformer)というものが主流らしい
Vision Encoderについて調べていると、
Vision Transformer(ViT)
という記述を何度か目にしました。
現在の画像認識で広く使われている技術らしいです。
ViTは画像を小さな領域に分割し、それぞれの領域を入力として処理する仕組みとのことです。
┌─┬─┬─┐
│A│B│C│
├─┼─┼─┤
│D│E│F│
├─┼─┼─┤
│G│H│I│
└─┴─┴─┘
↑のように画像を小さな領域に分割し、それぞれの領域の情報を使って画像を認識する仕組みのようです。
画像全体を一度に見るのではなく、分割した領域をもとに処理しているっぽいです。
GeoGuessrのような画像であれば、
- 標識
- 建物
- 電柱
- 道路
といった特徴を捉えた上で、最終的に場所を推測しているのかもしれません。
まとめ
今回、
- LLMは主に言語を扱うモデルであること
- 画像理解にはVision Encoderという仕組みが使われていること
- ViT(Vision Transformer)が現在の代表的な技術であること
を知りました。
生成AIが画像を理解するための仕組みについて少しだけですが知ることができて良かったです。



