概要
先日、Google から発表された Gemini 3 モデル。
エージェント ワークフロー、自律型コーディング、複雑なマルチモーダル性能がさらに向上したと言われていますが、実際のところ画像認識や OCR(光学文字認識)としての実力はどう変わったのでしょうか?
今回は、Gemini 2.5 Pro と Gemini 3 Pro を使用し、単純なテキストだけでなく、数式、複雑なレイアウト、地図、手書きアンケート、など、OCR 泣かせの5つのケースで比較検証を行いました。
検証環境とルール
検証環境: Colab
モデル: Gemini 2.5 Pro / Gemini 3 Pro
入力形式: PDF / PNG
対象資料:
- 論文形式: 数式を含む専門的な文書
- 画像形式: デザイン性の高い映画ポスター
- 表形式: 汚れやグラフを含む実験データ
- 地図形式: UI要素を含む Google マップのスクショ
- アンケート形式: 手書き文字やチェックボックスを含むアンケート用紙
1. 処理速度の比較
まず、大きな差が出たのが「処理速度」です。各タスクにおけるレスポンスタイム(秒)をまとめました
| テストケース | Gemini 2.5 Pro | Gemini 3 Pro | 改善率 |
|---|---|---|---|
| 論文 (PDF) | 28s | 17s | 約40%高速化 |
| 論文 (PNG) | 19s | 33s | (低速化) |
| ポスター (PDF) | 11s | 11s | 同等 |
| ポスター (PNG) | 17s | 12s | 約30%高速化 |
| 表データ (PDF) | 57s | 34s | 約40%高速化 |
| 表データ (PNG) | 54s | 49s | 微増 |
| 地図 (PDF) | 18s | 37s | (低速化) |
| 地図 (PNG) | 16s | 24s | (低速化) |
| アンケート (PDF) | 26s | 40s | (低速化) |
| アンケート (PNG) | 26s | 35s | (低速化) |
考察:
全体として、テキスト量の多い PDF 解析(論文・表)において Gemini 3 は高速化 しています。一方で、画像解析(PNG や複雑な UI)では、より詳細な視覚情報の抽出を行っているためか、Gemini 3 の方が時間を要するケースも見られました。
※ レスポンスタイムはブレも大きいことに留意してください。
2. 精度比較:各ケースの詳細分析
論文形式 (数式・LaTeX)
複雑な数式(Softmax 関数や行列演算)を正確に LaTeX 形式で出力できるか
結果
- 文字認識: 文字に関してはほぼ問題なし
Gemini 2.5 pro
### 3.2 アテンション・メカニズムとマルチヘッド化
本研究で採用する Transformer アーキテクチャの中核を成すのは、スケールド・ドット積アテンション (Scaled Dot-Product Attention) である。入力として、次元 $d_k$ のクエリ $Q$ とキー $K$、および次元 $d_v$ のバリュー $V$ が与えられた際、アテンションの出力行列は以下のように算出される。
$$
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
$$
ここで、除算項 $\sqrt{d_k}$ はスケーリング係数として機能する。$d_k$ の値が大きい場合、ドット積の結果が増大し、ソフトマックス関数の勾配が極めて小さくなる領域 (vanishing gradient) に陥る可能性がある。これを防ぐために $\frac{1}{\sqrt{d_k}}$ を乗算し、学習の安定化を図っている。
さらに、モデルが異なる部分空間 (subspaces) からの情報を同時に表現能力として獲得できるよう、我々はこれを拡張したマルチヘッド・アテンション (Multi-Head Attention) を導入する。$h$ 個のヘッドを持つ場合、各ヘッド $\text{head}_i$ は独立した重み行列 $W_i^Q, W_i^K, W_i^V$ を用いて計算され、最終的に以下のように結合 (Concat) される。
$$
\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \dots, \text{head}_h)W^O
$$
ここで $W^O$ は出力用の射影行列であり、各ヘッドの出力を統合して元の次元 $d_{\text{model}}$ へと変換する役割を担う。
Gemini 3 pro
### 3.2 アテンション・メカニズムとマルチヘッド化
本研究で採用するTransformerアーキテクチャの中核を成すのは、スケールド・ドット積アテンション (Scaled Dot-Product Attention) である。入力として、次元 $d_k$ のクエリ $Q$ とキー $K$、および次元 $d_v$ のバリュー $V$ が与えられた際、アテンションの出力行列は以下のように算出される。
$$
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V
$$
ここで、除算項 $\sqrt{d_k}$ はスケーリング係数として機能する。$d_k$ の値が大きい場合、ドット積の結果が増大し、ソフトマックス関数の勾配が極めて小さくなる領域 (vanishing gradient) に陥る可能性がある。これを防ぐために $\frac{1}{\sqrt{d_k}}$ を乗算し、学習の安定化を図っている。
さらに、モデルが異なる部分空間 (subspaces) からの情報を同時に表現能力として獲得できるよう、我々はこれを拡張したマルチヘッド・アテンション (Multi-Head Attention) を導入する。$h$ 個のヘッドを持つ場合、各ヘッド $\text{head}_i$ は独立した重み行列 $W^Q_i, W^K_i, W^V_i$ を用いて計算され、最終的に以下のように結合 (Concat) される。
$$
\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \dots, \text{head}_h)W^O
$$
ここで $W^O$ は出力用の射影行列であり、各ヘッドの出力を統合して元の次元 $d_{\text{model}}$ へと変換する役割を担う。
- PDF処理: 2.5 pro と精度は同等で、速度が約1.6倍に向上
- 数式の記述: 3 pro は、文中のインライン数式とディスプレイ数式の使い分けがより自然
画像形式 (映画ポスター風)
デザインされたフォントや、背景に埋め込まれた文字の認識ができるか?
結果
- 文字認識: 文字に関してほぼ問題なく抽出
- 画像説明: サイケデリックスタイルなど、抽象的な認識もできている
Gemini 2.5 pro
### 画像の説明
1960年代のスパイ映画を模した、サイケデリックなアートスタイルのポスターイラストです。銃を構えた男性、女性、スポーツカー、エッフェル塔がカラフルな渦巻き模様を背景に描かれています。
### 文字起こし結果
AGENT 007 MEETS HIS MATCH!
OPERATION
PSYCHEDELIC
A SWINGING '60s THRILL RIDE!
Hand-drawn illustration
STARRING PETER SELLERS & JANE FONDA
Gemini 3 pro
### 画像の説明
1960年代のサイケデリック・アートスタイルで描かれた、架空またはレトロな映画ポスター風のイラストです。エッフェル塔、青いスポーツカー、タキシード姿で銃を構える男性、そして60年代風のドレスを着た女性が、カラフルで渦巻くような幾何学模様の背景の中に配置されています。
### ポスターのテキスト
#### キャッチコピー
AGENT 007 MEETS HIS MATCH!
#### タイトルロゴ
OPERATION
PSYCHEDELIC
#### サブコピー
A SWINGING '60s THRILL RIDE!
#### クレジット
STARRING PETER SELLERS & JANE FONDA
#### サイン
Hand-drawn illustration
- 画像の説明: 画像説明において、「架空またはレトロな映画ポスター風のイラスト」「青いスポーツカー、タキシード姿で銃を構える男性、そして60年代風のドレス」といった視覚的な雰囲気の描写力が向上している
- 構造化: キャッチコピー、タイトル、クレジットといった役割ごとの分類が適切にできている
表形式 (グラフ・ノイズ)
セル内に埋め込まれたグラフの扱いとコーヒーの染みなどのノイズ耐性
結果
- 文字認識: 文字に関してはほぼ問題なし
- ノイズ耐性: 汚れがある状態でも問題なく抽出できている
Gemini 2.5 pro
### 画像の説明
これは「Project CHIMERA」という研究プロジェクトの、遺伝子改変マウスの行動分析結果(2023年、フェーズ3)をまとめたレポートです。表形式で、6匹のマウス(Subject ID: C-203-A から C-203-F)の遺伝子型、形態的特徴(写真と手書きの記述)、および3種類の行動アッセイ(オープンフィールド、迷路、攻撃性スコア)の結果が、グラフや手書きのスコアと共に記録されています。
### 文字起こし
### Project CHIMERA: Genetic Modification & Behavioral Analysis (Phase 3 - 2023)
| Subject ID | Genotype | | | Morphology | Phenotype | | |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| | **CRISPR/Cas9 Target** | **Vector** | **Zygosity** | | **Behavioral Assays** | | |
| | | | | | **Open Field (cm)** | **Maze (%)** | **Aggression Score (1-10)** |
| **C-203-A** | C-203-A | IMP1 | VeC01 ✓ | Descriptive text: swöle-moosits ayanorarus and bowang molecuale merge n'one complete leunis reating and descrption | (グラフ画像) | (グラフ画像) | `1-10` |
| **C-203-B** | C-203-B | GENE | VeC22 ✓ | Descriptive text: santi-prorireated apiwuches and inlint fawia high roasitle, but roth more crosk and relearat. | (グラフ画像) | (グラフ画像) | `1-10` |
| **C-203-C** | C-203-C | GZN1 | VeC23 ✓ | Descriptive text: santi-different smomthox and awennmiiy high problems, but neurost roid over hing emoked. | (グラフ画像) | (グラフ画像) | `8-0` |
| **C-203-D** | C-203-D | ADNF | Vect04 ✓ | Descriptive text: sight: infiamed wavariess, both severally atihævetical, photo-srechtexmorphology and paisturofties. | (グラフ画像) | (グラフ画像) | `5` |
| **C-203-E** | C-203-E | GENE | Vect01 ✓ | Aggression Score (1-10, beffiicient dusr activitats of movennum with collec, ariring with infernely crlowatted notes. | (グラフ画像) | (グラフ画像) | `10` |
| **C-203-F** | C-203-F | GENE | Vect01 ✓ | Descriptive text, and coralonating with somegen seckz, tmrest and grassels tnin-ravement. | (グラフ画像) | (グラフ画像) | `?` |
- 表の構造認識: Morphologyなど一部項目が崩れている
Gemini 3 pro
### 画像の説明
この画像は、「Project CHIMERA: Genetic Modification & Behavioral Analysis (Phase 3 - 2023)」と題された研究データの表です。遺伝子型(Genotype)と表現型(Phenotype)の関係を示しており、6匹の被験体(Subject ID: C-203-A から F)について、CRISPR/Cas9ターゲット、ベクター、接合性(Zygosity)、形態学的記述(Morphology)、および行動分析(Behavioral Assays)の結果が記載されています。行動分析には、マウスの写真、行動実験の棒グラフ、および手書きの攻撃性スコアが含まれています。書類は古びた紙のようなテクスチャで、コーヒーの染みのような汚れがあります。
### テキストの文字起こし
**Project CHIMERA: Genetic Modification & Behavioral Analysis (Phase 3 - 2023)**
| Subject ID | Genotype<br>CRISPR/Cas9 Target | Vector | Zygosity | Phenotype<br>Morphology | Behavioral Assays<br>Open Field (cm) | Maze (%) | Aggression Score (1-10) |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| **C-203-A** | IMP1 | VeC01 | ✓ | Descriptive text: swole-moosits gyanovanus and bowang molecule merge none complete leuvris reating and description | [棒グラフ] | [棒グラフ] | 1-10 |
| **C-203-B** | GENE | VeC22 | ✓ | Descriptive text: santi-prorireated apmvuches and intlint fawia high roastle, but roth more crosk and releavat. | [棒グラフ] | [棒グラフ] | 1-10 |
| **C-203-C** | GZN1 | VeC23 | ✓ | Descriptive text: santi-different smomchox and awennmuig high problems, but neurost roid over:ihing emoked. | [棒グラフ] | [棒グラフ] | 8-0 |
| **C-203-D** | ADNF | Vect04 | ✓ | Descriptive text: sight: infiamed waparess, both severally atihanetical, photo-srechve:morphology and paisturoties. | [棒グラフ] | [棒グラフ] | 5. |
| **C-203-E** | GENE | Vect01 | ✓ | Aggression Score (1-10, befficient dusr:activitics of movennum with collec, driring with infernely crlowatted notes. | [棒グラフ] | [棒グラフ] | 10 |
| **C-203-F** | GENE | Vect01 | ✓ | Descriptive text, and coralonating with somegen secks, tmrest and grassels tnin-ravement. | [棒グラフ] | [棒グラフ] | ? |
- 画像の説明: 2.5 pro より詳しく簡潔にレポート内容を説明できている
-
グラフの認識: グラフ部分を
[Bar Chart]と潔く抽象化している - 表の認識: 2.5 pro よりも無理なく元の構造を表現できている
地図形式 (図形・回転)
地図上の散らばったラベルや UI パーツの認識、縦横の向き
結果
- 文字認識: 画面内の単語は問題なく抽出可能
- ロゴ認識: Google ロゴを地図上の項目として認識してしまっている
Gemini 2.5 pro
### 画像の説明
これは、スマートフォンのGoogleマップアプリのスクリーンショットです。東京・渋谷のスクランブル交差点周辺の地図が表示されており、「カフェ」で検索した結果、「Starbucks Coffee SHIBUYA TSUTAYA」の情報がポップアップで表示されています。
### 完全な文字起こし
#### 検索バー
* カフェ
#### 選択された場所の情報(ポップアップ)
* (写真内の文字)STARBUCKS TSUTAYA
* Starbucks Coffee
* SHIBUYA TSUTAYA
* 4.3 ★★★★★
* Directions
#### 地図上の施設名・店舗名
* Starb...
* TSUT...
* 4.5 ★
* Ichi Ran
* Yoyogi Park entrance
* Tower Records Shibuya
* Shibuya 109
* FamilyMart
* Hachiko Statue
* Google
#### 下部ナビゲーションメニュー
* Explore
* Go
* Saved
* Contribute
* Updates
- 記号認識: スター数は5個で抽出されているが、そのうち評価としては4個であることは認識されていない?
Gemini 3 pro
### 画像の説明
スマートフォン(iPhone)でGoogleマップアプリを開き、東京・渋谷駅前のスクランブル交差点周辺を表示しているスクリーンショットです。画面は縦向き(ポートレートモード)の内容ですが、画像自体は左に90度回転した状態で保存されています。地図上には「SHIBUYA 109」や「Tower Records」などのランドマークが表示され、画面中央には「Starbucks Coffee SHIBUYA TSUTAYA」の情報カードがポップアップしています。
### テキスト書き起こし
#### 画面上部 (検索・ヘッダー)
* カフェ
#### ポップアップ情報カード
* Starbucks Coffee
* SHIBUYA TSUTAYA
* 4.3
* Directions
#### 地図上のラベル
* Yoyogi Park entrance
* Starbucks TSUTAYA
* 4.5
* Ichi
* Ran
* Tower Records Shibuya
* Shibuya 109
* Hachiko Statue
* FamilyMart
* Google
#### 画面下部 (ナビゲーションバー)
* Explore
* Go
* Saved
* Contribute
* Updates
- 画像の説明: 「iPhoneで開いた画面」「画像自体は左に90度回転した状態」など、メタ的な情報に関しても説明しており、2.5 pro より詳しい
- UI構造の理解: テキストをただ読むだけでなく、「ヘッダー」「地図エリア」「詳細情報カード」「フッター」のように、UI の構造的意味を理解してカテゴライズ している
- 隠れた文字の認識: 「Stab... TSUT」が「Starbucks TSUTAYA」であると認識して、抽出から除外している
- スター数に関しては抽出できていない(評価点4.3との齟齬を認識して、あえて抽出しなかった可能性もある)
アンケート形式 (手書き・チェックボックス)
手書き文字の解読と、丸で囲まれた選択肢の認識
結果
- 両モデルとも、画像の説明はほとんど問題なく、「木製のテーブル」「青いボールペン」「コーヒーカップの跡のような円いシミ」など、色や推測が含まれているのが特徴的
- テキスト抽出はほぼ完璧
- 自由記述の取り消し線を認識できておらず、そのまま抽出されている
- なぜか、「会社員」にチェックが入っていると認識される
Gemini 2.5 pro
### 画像の説明
木製のテーブルの上に置かれた、記入済みのお客様満足度アンケート用紙と青いボールペンの画像です。用紙の左上には、コーヒーカップの跡のような円いシミがあります。
### 完全な文字起こし
### お客様満足度アンケート
スタッフの対応が非常に丁寧でしたが、説明が少し長く、待ち時間が気になりました。
| 満足度 | サービス | 店舗 | 接客態度 | 価格 | 総合 |
| :--- | :--- | :--- | :--- | :--- | :--- |
| | **商品** | **雰囲気** | ○ | ○ | ○ |
| | X | Δ | | | |
| **説明** | **品揃え** | **待ち時間** | **アクセス** | | |
| | X | Δ | ○ | | |
| **オンライン体験** | | | | | |
| | 良かった点 | 改善点 |
| :--- | :--- | :--- |
| **自由記述** | 丁寧な接客、商品の品質 | (※商品の品質について追記: 一部パッケージに傷あり) |
| **その他要望** | ポイントカードアプリの導入希望 | |
| **情報源**<br>(複数回答) | [x] SNS [x] 友人 [ ] 広告 [ ] その他(記入: ウェブ検索) [x] クチコミ |
| **性別・年代** | [ ] 男性(○) [ ] 女性( ) [ ] その他( )<br>[ ] 学生 [x] 会社員 [ ] 主婦主夫 [ ] その他( ) |
| **日時:** | 2025. 12. 26日 | |
| **答縁者:** | T. Sato | |
- 表の構造: 「満足度」の表に関しては、正しく理解できておらず、見逃している値も存在する。ただし、自由記述の表に関しては 3 pro よりも表の構造を正確に認識できている
Gemini 3 pro
### 画像の説明
木製の机の上に置かれた「お客様満足度アンケート」というタイトルの手書き記入済み用紙です。用紙の左上にはコーヒーの染みがあり、青いボールペンが添えられています。回答日は2025年12月26日で、スタッフの対応は評価されているものの、待ち時間や説明の長さ、商品のパッケージの傷について指摘が含まれています。
### テキスト書き起こし
スタッフの対応が非常に丁寧でしたが、説明が少し長く、待ち時間が気になりました。
# お客様満足度アンケート
| 満足度 | | | | | | |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| **サービス** | 商品 △ | 雰囲気 × | 価格 ○ | 接客態度 ○ | 店舗 △ |
| **説明** | 品揃え × | 待ち時間 △ | アクセス ○ | 総合 ○ | |
| **オンライン体験** | | | | | |
| | |
| :--- | :--- |
| **良かった点** | <u>丁寧な接客、商品の品質</u> |
| **改善点** | (※商品の品質について追記:一部パッケージに傷あり) |
| **自由記述**<br>**その他要望** | ポイントカードアプリの導入希望 |
| **情報源**<br>**(複数回答)** | ☑SNS □友人 ☑広告 □その他(ウェブ検索) ☑クチコミ<br>□その他( ) |
| :--- | :--- |
| **性別・年代** | ☑男性(○) □女性( )<br>□学生 ☑会社員 □主婦/主夫 □その他( ) |
**日時 :** 2025 , 12 , 26 日 **答縁者 :** T. Sato
- 画像の説明: 2.5 pro より細かく説明されている
- 表の認識: 表の構造は正しく理解できていないが、2.5 pro より「満足度」の項目の見出しと値の関係は認識できている。ただし、自由記述の構造認識は誤っている
- 「チェック」の認識: 「情報源」の項目のチェックを正しく認識できている。また、画像のミスで「性別・年代」に記載されているクチコミを「情報源」に紐づけている
結論: Gemini 3 pro は 「読む」 から 「解釈する」 へ
今回の比較で分かった Gemini 3 pro の特長は以下の3点です。
- 説明の簡潔さ: より詳細で、ユーザーがその資料からどんな情報を知りたいのかを解釈し、簡潔に説明する能力が高い
- 「構造」の理解: 地図のUIやポスターのレイアウトなど、単なる文字起こしを超えて「それが何の要素か」を理解して出力する能力が高い
- 「非テキスト情報」の言語化: 手書きの丸囲みやチェックなどを適切に認識・言語化できる
- PDF処理の高速化: 文書解析ツールとしてより実用的になった
単に文字をデータ化する用途なら Gemini 2.5 pro でも十分高性能ですが、「とりあえず資料の概要を説明してほしい」「選択項目や複雑な表が含まれる」「メタ的な情報も取得したい」 といった高度な判断が必要なタスクでは、Gemini 3 pro への移行がおすすめです。
逆に弱点としては、まだまだ複雑な構造の表を認識するのが難しいことでしょうか。
これから先の性能向上に期待したいですね!
OCRタスクにおける Gemini 3 pro の実力、ぜひ皆さんも試してみてください。
Happy Hacking !!




