12
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Gemini 3 FlashとGemini 2.5 Flashの画像認識能力を徹底比較!

Posted at

待望のGemini 3 Flashの登場

2025年12月17日(米国時間)にGemini 3 Flashが発表されました!
高い推論能力を維持しつつ、圧倒的なスピードとコストパフォーマンスを両立させたモデルのFlashシリーズ。そのGemini 3ファミリーとしての登場は全世界が待望だったのではないでしょうか。
さまざまなアップデートがあった中で本記事では、Gemini 3 Flashの 画像認識 についてどのくらい精度が向上したのか気になったのでGemini 2.5 Flashと比較してみたいと思います。

Gemini 3 FlashとGemini 2.5 Flashの違い

注意:本記事では 画像認識 にのみ焦点を置いているので、他の機能については公式ドキュメントなどを参照してください。

では、実際にどのくらい画像認識に関して精度が向上したのかベンチマークの結果をもとに比較していきます。

image.png

以下が画像認識に関するベンチマークの結果をまとめたものです。

ベンチマーク項目 内容の概要 Gemini 3 Flash Gemini 2.5 Flash
MMMU-Pro マルチモーダルな理解と推論 81.2% 66.7%
ARC-AGI-2 視覚的な推論パズル 33.6% 2.5%
ScreenSpot-Pro 画面情報の理解(GUI操作など) 69.1% 3.9%
CharXiv Reasoning 複雑なチャート・グラフの分析 80.3% 63.7%
OmniDocBench 1.5 OCR(文書の文字認識)※低いほど優秀 0.121 0.154
Video-MMMU 動画からの知識獲得 86.9% 79.2%
Humanity's Last Exam 学術的推論(テキスト+画像) 33.7%(No tools) 11.0%

この表では理解が難しいのでベンチマーク項目についてもう少しわかりやすく説明していきます。

MMMU-Pro

MMMU-Proとは「高度な専門知識が必要かつ、画像を見てその内容を理解して頭を使って考える必要があるテストのPro版(より難しいバージョン)」です。

  • 例: 顕微鏡の画像から、どの病気の細胞かを判断する

このベンチマーク結果が66.7%から 81.2% まで向上しています。つまり、専門知識を使い画像を理解して解く問題の力が人間に近いレベルまで到達しています。

ARC-AGI-2

ARC-AGI-2とは「初見の図形パズルを見て、そこに隠された法則を自力で見つけ出し、正解を導き出す地頭の良さ(論理的推論力)を測るテスト」です。

  • 例: 提示されたいくつかの図形の変化パターンを読み取り、未知の図形が次にどう変化するかを予測する

このベンチマーク結果が2.5%から 33.6% まで劇的に向上しています。これまでAIが最も苦手としていた「教えられていない未知の規則をその場で考えて解く」という、人間に近い柔軟な思考力がついてきたことを示します。

ScreenSpot-Pro

ScreenSpot-Proとは「パソコンやスマートフォンの画面を見て、どこに何のボタンや情報があるかを人間と同じように正確に認識する力を測るテスト」です。

  • 例: アプリの操作画面を見て、「設定アイコン」がどこにあるか、現在の進捗バーが何%を指しているかを特定する

このベンチマーク結果が3.9%から 69.1% まで驚異的に向上しています。画面を読み取る力が向上したことによって、この力を活用した「AIエージェント」としての実用性が一気に高まっていくかもしれません。

CharXiv Reasoning

CharXiv Reasoningとは「論文やビジネス資料に登場する非常に複雑なグラフやチャートを読み取り、そこから高度な分析や計算を行う力を測るテスト」です。

  • 例: 複数の線が入り混じった複雑な統計グラフから、特定の年の成長率を読み取り、将来の予測値を計算する

このベンチマーク結果が63.7%から 80.3% まで向上しています。図表に含まれる細かな数値や傾向を正確に捉える力が強化されており、専門的なデータ分析の補助として十分に信頼できるレベルに達しています。

OmniDocBench 1.5

OmniDocBench 1.5とは「複雑なレイアウトの文書や数式、表などが混在する画像から、どれだけ正確に情報を読み取れるか(OCRと文書理解)を測るテスト」です。 ※数値が低いほどエラーが少なく優秀であることを示します。

  • 例: 数式や注釈が入り組んだ専門書のページを、レイアウトを崩さずに一字一句正しくテキスト化する

このスコアが0.154から 0.121 へと改善されました。ただの文字起こしを超えて、文書の構造までを深く理解する精度が上がっており、紙の資料やPDFのデータ化においてとても高い信頼性を発揮するようになりました。

Video-MMMU

Video-MMMUとは「動画を見て、その中で起きている出来事や時間の流れ、細かい変化を理解して質問に答える力を測るテスト」です。

  • 例: 数分間の調理動画を見て、「どのタイミングで調味料を入れたか」や「調理器具の使い方の手順」を説明する

このベンチマーク結果が79.2%から 86.9% まで向上しています。静止画の理解だけでなく、時間の経過に伴う変化や文脈を読み取る力が進化しており、映像コンテンツの解析能力がより一層高まっています。AIによるスポーツのリアルタイム解説も実現間近かもしれません!

Humanity's Last Exam

Humanity's Last Examとは「AIには解けないだろうと想定して人間が作成した、学術的にも最高難易度の専門知識と視覚情報を組み合わせた試験」です。

  • 例: 専門家レベルの物理学や法学の図解問題など、高度な知識がないと文脈すら理解できない超難問を解く

このベンチマーク結果が11.0%から 33.7% まで大きく向上しています。人間が「AIに対する最後の砦」として用意した超難関問題に対しても、着実に正解を導き出せるほど、知能と視覚理解をうまく活用できるようになりました。

以上がベンチマークの説明でした。数値で見ると画像認識の部分だけでも飛躍的に向上していることがわかったのではないでしょうか。Gemini 2.5 Flashは2025年4月ごろにプレビュー版が登場したのでわずか 8ヶ月 でこれほどの成長を遂げていることに衝撃です。

両モデルに写真だけで食レポをさせて回答を比較してみた

今回の検証で使用したのはGoogle AI APIでAPIキーを取得してGemini 3 Flashに接続する方法です。使用した言語はPythonでコードはClaude CodeのClaude Sonnet4.5で生成しました。
食レポしてもらう写真(忘年会で食べたお寿司)
IMG_7167.jpg

【手順】

  1. Google AI Studioで事前にAPIキーを取得します
  2. 取得したAPIキーを環境変数として以下のように設定します
    export GOOGLE_API_KEY='your-api-key-here'
    
  3. 画像を扱うために必要なパッケージをインストール
    pip install requests pillow
    
  4. main.pyファイルを作成して以下を記述
    main.py
     import os
     import requests
     import base64
     
     # 画像をBase64エンコード
     def encode_image(image_path):
         """画像ファイルをBase64エンコードして返す"""
         with open(image_path, "rb") as image_file:
             return base64.b64encode(image_file.read()).decode('utf-8')
     
     # 環境変数からAPIキーを取得
     api_key = os.environ.get("GOOGLE_API_KEY")
     if not api_key:
         print("エラー: GOOGLE_API_KEY環境変数が設定されていません")
         print("以下のコマンドでAPIキーを設定してください:")
         print("export GOOGLE_API_KEY='your-api-key'")
         exit(1)
     
     # Google AI API エンドポイント
     model = "gemini-3-flash-preview"
     url = f"https://generativelanguage.googleapis.com/v1beta/models/{model}:generateContent?key={api_key}"
     
     # 画像をBase64エンコード
     image_base64 = encode_image("food.jpg")
     
     # リクエストボディ
     payload = {
         "contents": [{
             "parts": [
                 {"text": "この画像について魅力的な食レポを書いてください。"},
                 {
                     "inline_data": {
                         "mime_type": "image/jpeg",
                         "data": image_base64
                     }
                 }
             ]
         }]
     }
     
     print("--- Gemini 3 Flash API 呼び出し中 ---")
     
     # APIリクエストを送信
     response = requests.post(url, json=payload)
     
     # レスポンス処理
     if response.status_code == 200:
         result = response.json()
         text = result["candidates"][0]["content"]["parts"][0]["text"]
         print(text)
     else:
         print(f"エラー: {response.status_code}")
         print(response.text)
    
  5. main.pyをターミナルで実行
    すると以下の回答が返ってきました!
    Gemini 3 Flashの回答.
     テーブルに広がる、まるで宝石箱をひっくり返したような華やかな光景に、思わず感嘆の息が漏れます。
     
     主役は何と言っても、大皿に美しく並べられた**「極上寿司の盛り合わせ」**。
     艶やかな赤身のまぐろ、脂ののったサーモン、そして透き通るような白身の輝き。一貫一貫が「鮮度の証」を放っています。特に、きれいに整列した海老のピンクと、溢れんばかりのいくらの醤油漬けが、彩りに更なる華を添えています。箸を伸ばすたびに、海の幸の濃厚な旨味が口の中でとろけ、至福のひとときを約束してくれます。
     
     さらに視線を移すと、隣にはお洒落な**「チーズとオリーブのアペタイザー」**が。
     サイコロ状にカットされた彩り豊かなチーズは、まるでお菓子のよう。寿司の合間にいただくこの一口が、絶妙な塩気とコクを与え、お酒をさらに進ませます。
     
     傍らに控えるのは、キリッと冷えた**「サッポロ黒ラベル」**。
     グラスに注げば、喉を潤す黄金の刺激が、脂ののった魚の旨味をさっぱりと洗い流し、次の一口への期待を高めてくれます。お酒が苦手な方には、香り高い「伊右衛門」の緑茶が、心安らぐ最高のパートナー。
     
     豪華な寿司を囲み、美味しいお酒を片手に語らう時間。
     これは単なる食事ではなく、五感すべてで愉しむ**「最高の宴(うたげ)」**です。
     さあ、どれからいただきましょうか? 迷う時間さえも贅沢に感じられる、そんな素晴らしい食卓です。
    
  6. 次にモデルをGemini 2.5 Flashに変更して再びmain.pyを実行
    Gemini 2.5 Flashの回答
    はい、承知いたしました。この画像について、魅力的な食レポを書きます。
     
     ---
     
     **【至福の宴がここに!彩り豊かな豪華寿司とサイドディッシュに舌鼓】**
     
     テーブルいっぱいに広がるこの光景に、思わず感嘆の声が漏れてしまいました!目を見張るのは、鮮やかな赤が食欲をそそる特大サイズの寿司桶。黒地に金色の吉祥文様が施された豪華な器には、まるで宝石のように輝く多種多様な握り寿司がぎっしりと並べられています。これはまさに、食卓の主役を飾るにふさわしい、夢のようなラインナップです!
     
     まず目を奪われるのは、とろけるような赤身が美しいマグロ。その隣には、脂が乗って艶やかなオレンジ色を放つサーモン、そしてプチプチとはじけるいくらがアクセントになったサーモンいくら乗せが並び、見るからに贅沢なハーモニーを奏でています。
     
     ぷりっぷりの食感がたまらない甘エビ、透き通るようなイカの繊細さ、上品な旨味をたたえる白身魚。そして、薬味のネギが香る、とろけるようなネギトロ握りは、口の中でとろける至福の味わいを約束してくれるでしょう。甘じょっぱい味わいが嬉しい玉子焼きも、食卓に彩りを添えています。どれもこれも新鮮さが一目でわかる、選び抜かれたネタばかりで、一口ごとに海の恵みを存分に感じられそうです。添えられたガリが、次の寿司へと期待を高めます。
     
     脇を固めるのは、これまた魅力的なサイドディッシュたち。一口サイズにカットされたチーズと色鮮やかな野菜、オリーブがぎっしり詰まったおしゃれなカップサラダは、さっぱりとした箸休めに最適。視覚的にも美しく、食欲を刺激します。
     
     喉を潤すのは、キンキンに冷えたサッポロ黒ラベルと、キリンGOOD DAYビール。そして、京都福寿園の銘茶「伊右衛門」の緑茶まで用意され、食のペアリングも完璧です。
     
     友人や家族との楽しいひとときを彩るにふさわしい、この上なく贅沢な食卓。会話が弾み、笑顔があふれる様子が目に浮かびます。視覚、味覚、そして心までも満たされる、最高の食体験がここにあると確信しました。ああ、この席に加わりたい!
    

食レポの結果を考察(個人的意見)

2つのモデルに食レポをさせてみた結果、内容には大きな差があまりないのかなという印象でした。

Gemini 3 Flash

一貫一貫が「鮮度の証」を放っています。などのようにワードチョイスなどがプロの食レポのようだなと感じました。また、読み取れた情報を細かく伝えるのではなく、「魅力的な食レポ」というプロンプトに沿って雰囲気が文章だけでもより伝わる回答に感じました。

Gemini 2.5 Flash

一方、Gemini 2.5 Flashの回答を読んだ第一印象はGemini 3 Flashに比べて読み取れる情報をできるだけ全て拾ったような感じだったり、情報を補足したりしている気がしました。例えばオリーブがぎっしり詰まったおしゃれなカップサラダなどは実際オリーブはぎっしり詰まっていないし、カップサラダでもないのでは?と思いました。お寿司のネタを紹介している箇所はこちらのモデルの方が多かったです。ガリを除いて8個のネタについて言及していました。Gemini 3 Flashは5個のネタについて言及していましたが内容としてはより優れている印象でした。

終わりに

最後まで読んでいただきありがとうございました。
食レポ部分ではあまり大きな違いが出ませんでしたが、Gemini 3 Flashはベンチマークでわかるように機能が飛躍的に向上したモデルです。スピードと質を兼ね備えたモデルなので日常だけでなく業務でも活用できると思います。みなさんもぜひGeminiをたくさん使ってみてください。
そして、生成AIの進化がとてつもない時代の今、Geminiの今後の進化に注目です!

12
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
12
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?