5
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

生成AIにGeoGuessrをやらせたらどうなるのか試してみた

5
Posted at

はじめに

最近、子供がGeoGusserにハマっています。

生成AIにGeoGuessrをやらせたら、どれぐらい当てられるんだろう?

と思ったので試してみることにしました。

GeoGuessr

GeoGuessrはストリートビュー画像を見て場所を推測するゲームです。

人間の場合、

  • 電柱の形
  • 道路標識
  • 車線
  • 建物
  • 看板の文字

などを手掛かりに国や地域を推測します。

やってみた

実際にGeoGuessrの画像をChatGPTに入力し、

  • どの程度場所を当てられるのか
  • 何を根拠に推測しているのか
  • どのように画像を理解しているのか

を調べてみました。

第1問

GeoGuessrの画面キャプチャをChatGPTに入力してみます。
一見なんの手がかりも無さそうですが、、

image.png

それっぽい理由と共に、おおよその場所を特定してくれます。
image.png

AIの解答を元にピンを置いてみたところ、割と正解に近かったです(国は合っている)。
image.png

第2問

さらに手がかりが無さそうです。

image.png

おおよその場所を特定してくれましたが、第1問ほど具体的な根拠は示されませんでした。
image.png

ただし、結果は、かなり正解に近かったです。
image.png

生成AIは、どのような仕組みで画像を扱っているのか?

理由もそれっぽく生成AIは画像を理解しているように見えました。

そもそも生成AIはどのような仕組みで画像を扱っているのか良く分かっていないので、少し調べてみました。

Vision Encoderについて

調べてみると、現在のマルチモーダルLLMは概ね次のような構成になっているようです。(視覚言語モデルの仕組み

画像
 ↓
Vision Encoder
 ↓
LLM
 ↓
回答

画像を理解しているのはVision Encoderという別の仕組みで、LLMがその結果を受け取って文章を生成しているようです。

Vision Encoderは何をしているのか

Vision Encoderとは、

「画像をAIが扱いやすい数値データへ変換する仕組み」

のようです。

「画像を特徴ベクトルへ変換する」
「画像の意味を表現する特徴表現を生成する」

という説明がでてきます。

PixelBank というページの解説(https://pixelbank.dev/vlm-study-plan/chapter/2)には、

Vision Encoderは、生のピクセルデータを画像の意味を表現する特徴ベクトルへ変換する役割を持つ

というようなことが記載されていました。

人間が画像を見て

  • 電柱がある
  • 道路がある
  • 看板がある

と認識するように、AIも画像の中の特徴を抽出しているということだと理解しました

ViT(Vision Transformer)というものが主流らしい

Vision Encoderについて調べていると、

Vision Transformer(ViT)

という記述を何度か目にしました。

現在の画像認識で広く使われている技術らしいです。


ViTは画像を小さな領域に分割し、それぞれの領域を入力として処理する仕組みとのことです。

┌─┬─┬─┐
│A│B│C│
├─┼─┼─┤
│D│E│F│
├─┼─┼─┤
│G│H│I│
└─┴─┴─┘

↑のように画像を小さな領域に分割し、それぞれの領域の情報を使って画像を認識する仕組みのようです。
画像全体を一度に見るのではなく、分割した領域をもとに処理しているっぽいです。


GeoGuessrのような画像であれば、

  • 標識
  • 建物
  • 電柱
  • 道路

といった特徴を捉えた上で、最終的に場所を推測しているのかもしれません。

まとめ

今回、

  • LLMは主に言語を扱うモデルであること
  • 画像理解にはVision Encoderという仕組みが使われていること
  • ViT(Vision Transformer)が現在の代表的な技術であること

を知りました。
生成AIが画像を理解するための仕組みについて少しだけですが知ることができて良かったです。

5
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?