20
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【LLM文字起こし性能比較】低解像度のAI泣かせ表データを読ませてみた結果(GPT-5.2 / Gemini 3 / Claude 4.5 Opus)

20
Last updated at Posted at 2026-01-16

💡この記事で分かること

  • GPT-5.2、Gemini 3、Claude 4.5 Opusの画像文字起こし性能の違い
  • 低解像度・特殊文字満載の表データに対する各モデルの対応力
  • 筆者の検証環境における最適な文字起こしモデルの選定結果
  • プロンプトの質が出力に与える影響の実例

対象読者: RAGシステムの構築をしている方、大量の画像データから文字起こしが必要な方、最新LLMの実力を知りたい方、「どのAIを使えばいいの?」と悩んでいる方


はじめに

株式会社Dirbatoの社内技術支援横断組織「Backbeat」で、最新技術の調査や社内ツールの保守開発を担当している山田です!

最近のプロジェクトで大量の画像データから情報を抽出する必要がありました。特に、低解像度の、細かい文字が詰まった表データの画像から高精度に文字起こしをしたい――そんな切実な願いから、この検証を始めました。

「最新のLLMなら、どんな画像でも読めるんでしょ?」と思っていた私は、この実験で現実の厳しさを思い知ることになります……。

実験概要

検証対象モデル

今回は、話題の最新鋭モデル3種で対決してもらいました。

  • GPT-5.2
  • Gemini 3
  • Claude 4.5 Opus

なぜこの3モデルを選んだのか?

  • GPT-5.2: OpenAIの最新フラッグシップモデル。推論能力と指示追従性の高さで定評があり、ビジネス用途での信頼性が高い
  • Gemini 3: Googleの最新マルチモーダルモデル。画像生成モデル「Nano Banana」シリーズで培った画像処理技術を持つ
  • Claude 4.5 Opus: Anthropicの最新最上位モデル。長文理解と複雑な指示への対応力に優れる。スライドやスプレッドシートの操作が得意

テストデータ:「AI泣かせの表データ画像」

「これ、人間でも読むの大変だな…」 というレベルの表データ画像(低解像度・特殊文字満載・日本語英語混在)を用意しました。

Pasted image 20260109185752.png

う、うわぁ、、(ドン引き)

検証用プロンプトの作成

公平かつ最適な検証をするため、プロンプトの作成自体もAIに頼ることにしました。
選んだのは、文章作成能力に定評のある Claude 4.5 Sonnet です。(今回の検証対象以外のモデルで筆者が好きなモデルなのでSonnetに作成させました笑)

注意: プロンプトの質が結果に大きく影響するため(特にgpt-5.2)、プロンプト作成もAIに任せることで公平性を保ちつつ、最適な指示を得ることを目指しました。

Claude 4.5 Sonnet が作成した「検証用プロンプト」

あなたは超高精度文字起こし専門AIです。以下のルールに従って画像内のすべての文字情報を完全に文字起こししてください。

【厳守事項】
- 画像内のすべての文字を一字一句漏らさず抽出
- 特殊文字(記号、絵文字、数式、単位等)も正確に再現
- レイアウト・改行・インデント・空白も可能な限り再現
- 縦書き・横書き・斜め配置も判別して記載
- 重なった文字や背景に紛れた文字も見逃さない
- かすれ・ぼやけた文字は推測して【?】マークを付記
- 多言語混在も全て対応(日本語・英語・中国語・韓国語等)
- 数式・化学式・プログラムコードも正確に
- 表・グラフ内の文字も全て抽出
- 手書き文字も可能な限り判読

【出力形式】
- 前置き説明は一切不要
- 文字起こし結果のみを出力
- 元のレイアウトを可能な限り保持
- 判読困難な箇所は【判読不能】と明記

それでは文字起こしを開始してください。

完璧です。「特殊文字を正確に再現しろ」「前置きは一切不要」と、厳しいルールを設定しています。
さて、各モデルはこの高難度プロンプトにどう応えるのでしょうか?

結果発表

各モデルの評価は、筆者が正解データと照合して行いました

🤖 GPT-5.2:「日本語本文は強いが、特殊文字・詳細情報に課題」

結果: ⚠️ 日本語本文は高精度だが、特殊文字・URL・優先度などキー項目で誤認識が多数

GPT-5.2は、プロンプトの【厳守事項】を真摯に受け止め、日本語本文や一般的な記号の認識では高い精度を発揮しました。しかし、業務上重要な特殊文字(ID)、URL/パス、優先度、日付、メモ欄の内容において、多数の誤認識・欠落・改変が確認されました。

📊 GPT-5.2の文字起こし精度スコア

項目 正解率 評価
特殊文字(ID) ⚠️⚠️ 多数の大幅誤認
タイトル ✅ 概ね正確
メモ欄(改行含む) ⚠️ 内容が別物になる行あり
フォーマット欄
日付 ⚠️ 年の取り違え、形式崩れ
URL・パス ⚠️ 欠落・改変多数
数値・単位 ⚠️ 一部誤認・欠落
優先度×状態 ⚠️⚠️ 業務上致命的な取り違え

評価: 日本語本文は強いが、特殊文字・詳細情報に課題。日本語本文や一般記号の認識は高精度ですが、業務上重要な特殊文字(ID)、URL/パス、優先度、日付、メモ欄の内容において、多数の誤認識・欠落・改変が確認されました。

推奨用途:

  • 日本語・英語・数値の抽出が主目的の場合
  • 特殊文字の完全一致が必須でない場合
  • 業務上重要な詳細情報(ID、URL、優先度など)の完全一致が必須でない場合
実際の出力結果と解説

実際の出力結果(中盤抜粋)

No. ID/識別子 テーマタグ群 タイトル(長文注意) 要約メモ/備考(改行多め) フォーマット混在 発生日/更新履歴 優先度×状態 関連リンク・参照(混在) 画像/ファイル表記 数値・測定情報 扱い注意 ラベル/分類 担当/チーム名
────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
1 ♯Ω-Δ12♪ 花/観察/未分類 野外観察ノート第1章:朝の花々(仮)
香り濃厚・色階調〜ピンク
/湿地〜谷・写真参照 JPG / txt / weird 2023/05/03〜2023/05-12-11(修) 中/保留→確認 ref://アルバム/青頁
12%rhttp://local/imgA_can001 img_20230503.jpg&can001 3.14 / 0x1Fx
測定: pH=6.2 要分類・別 花, 野外, 観察 山野班α

2 Σ猫-9000★ 料理/レシピ/試作 スパイス混合メモ(バリ工多)&実験ログ
メモ書き:
ナツメグ2tsp
クローブ1tsp
/甘味? PDF / 手書き / EML 2024-01〜2024-11-11(追記) 中/完了?(曖昧) dropbox:/recipes/mixA\n→
参照:メモ紙 photo_mix_v2.png 塩=1.5g/鶏
kcal 実験番号 スパイス, 実験, 試食 キッチンチームQ

3 ©QZ◆◆□ アート/下書き/断片 ドローイング断片集A
ページ17
走り書き, 多重スケッチ[削]
かい込込みあり※影の第3 SVG / PNG / sketch 2022/6/21 低/棚上げ git://art/repo#branch\n→sketch17.svg thumb_17.png?raw=1
skp 297mm×?mm密度: 高 保存形式乱立、要統一 スケッチ, 顔, 研究 美術部-自由制作

4 ▼ロ元-007-改 昆虫/標本/メモ クモ類調査メモ(夜間)
種名?
うろ覚え
位置:1-4
夜間採集, 光トラップ観察:6
種, うち2不明種×モンゴ CSV / excel / 手書き 2025/7/9 高/解析中 map://trap/loc#1\n→CSV
trap_results.csv trap1.jpg\nspecimen_02.pdf 重量:0.002g\n脚長:3-6mm ラベル欠損の標本あり 採集, 夜, 生態 生物班-B

5 ▲Δ-猫耳 道具/備品/棚卸 古道具リスト(ごちゃ混)
破損あり
場所:倉庫D-奥
要廃棄検討 XLSX / 写真 / txt 2019-12〜2025-04-05(棚卸) 中/要処理 share:/logistics/items\nbarcode:?? pic_shelfB.png 個数:12/欠損2 廃棄申請(メール未送) 備品, 古物, 廃棄 物流/倉庫班

...(中略:全28行を完走)...

28 ▼ロ元-007-改 昆虫/標本/メモ クモ類調査メモ(夜間)
trap_results.csv CSV / excel / 手書き 2025/7/9 高/解析中 重量:0.002g 脚長:3-6mm 採集, 夜, 生態 生物班-B

📝 解説

日本語本文や一般記号の認識は高精度ですが、業務上重要な項目で多数の誤認識が確認されました。

✅ 強い点:

  • 日本語本文・一般記号の認識は高精度
  • 一部の特殊文字♯Ω-Δ12♪の認識
  • 日付や数値の一部は高精度

⚠️ 弱い点(重要):

  • ID(特殊文字)で大幅誤認が多数𐌂, ♥︎π, ✺∆∆, ❖♫ など)
  • URL/パス・ファイル名で欠落/改変画像A消失、scan●01欠落、screenshot_err.png誤認など)
  • 優先度×状態、日付で取り違え(例:高→中、2025→2023)
  • メモ欄の内容が別物になる行がある(例:スパイス内容の入れ替わり)
  • 重複行を"注釈付き複製/要約"として加工する傾向があり、原文忠実性の観点では減点

正確に認識できた点

  1. 日本語本文の高精度認識
  • 日本語の文章は概ね正確に認識 ✅
  • 一般的な記号( など)は正確 ✅
  1. 表構造の維持
  • 28行×13列の表構造を維持 ✅
  • 列の対応関係は概ね正確 ✅
  1. 一部の特殊文字
  • ♯Ω-Δ12♪ → 完全一致 ✅

誤認識・欠落が見られた点

  1. 特殊文字(ID)の大幅誤認(多数)
  • 正解:∑_猫-9000★

  • GPT:Σ猫-9000★

  • ∑_ が消失/別字 ❌

  • 正解:𐌂:QZ◆♣️

  • GPT:©QZ◆◆□

  • → 大幅誤認 ❌

  • 正解:♥︎π-007・改

  • GPT:▼ロ元-007-改

  • → 大幅誤認 ❌

  • 正解:✺∆∆-猫耳

  • GPT:▲Δ-猫耳

  • → 大幅誤認 ❌

  • 正解:~!λ-八八八

  • GPT:!λ-ハハハ

  • → 大幅誤認 ❌

  • 正解:✦#¥-Z3

  • GPT:◆#¥-Z3

  • → 先頭記号誤認 ❌

  • 正解:❖♫-Ωン

  • GPT:♬ローン

  • → 大幅誤認 ❌

  • 正解:☼∞-未定★

  • GPT:∞∞-未定★

  • → 記号誤認 ❌

  • 正解:☆₪-λλλ

  • GPT:¤□-λλλ

  • → 大幅誤認 ❌

  • 正解:≋☂︎-77

  • GPT:◆¶○-77

  • → 大幅誤認 ❌

  • 正解:✱ΩΩ-零

  • GPT:※ΩΩ-零

  • → 先頭記号誤認 ❌

  1. URL/パス・ファイル名の欠落・改変(多数)
  • 正解:ref://アルバム/青/頁12\nhttp://local/画像A

  • GPT:ref://アルバム/青頁12%rhttp://local/imgA_can001

  • / が落ちる/画像A が別文字列に改変/12%r 等の異物混入 ❌

  • 正解:img_20230503.jpg\nscan●01

  • GPT:img_20230503.jpg&can001

  • scan●01 が消失し、別の &can001 が混入 ❌

  • 正解:jira:+BUG-∞

  • GPT:jira:BUG-004

  • → 大幅改変 ❌

  • 正解:screenshot_err.png

  • GPT:screenshot.err.png

  • → アンダースコア誤認 ❌

  1. 日付・優先度×状態の取り違え(業務上致命的)
  • 正解:2023/05/03\n2025-12-11(修)

  • GPT:2023/05/03〜2023/05-12-11(修)

  • → 年が 2025 → 2023 になる/改行→範囲表現になる/日付形式崩れ ❌

  • 正解:高/保留→確認中

  • GPT:中/保留→確認

  • → 優先度が変わる(致命的) ❌

  • 正解:高/報告書作成中

  • GPT:中/報告書作成

  • → 優先度のズレ ❌

  1. メモ欄の内容が別物になる(重大)
  • 正解(Row2):クミン/ターメリック、焦げやすい、等
  • GPT:ナツメグ/クローブ、甘味?、等
  • → 中身の入れ替わり(単なる記号揺れではない) ❌
  1. 数値・単位の一部誤認
  • 正解:0x1F

  • GPT:0x1Fx

  • → 余計な x

  • 正解:10,800s

  • GPT:10800s

  • → 表記ゆれ(許容もあるが一致ではない) ⚠️

  • 正解:Row10の 平均応答: 1.2s

  • GPT:見当たらない

  • → 欠落 ❌

  1. 重複行の扱い:加工・要約・欠落
  • GPT出力:13〜24行目に「(※複製)」の注釈を勝手に追加
  • GPT出力:25〜28行目に "要約された別レコード" のような行を生成(正解の25〜28は通常行の繰り返し)
  • → 「重複を正確に識別して同一内容を再掲」ではなく、加工・要約・欠落が混じる ❌

おまけ①:簡単なプロンプトで試したら?

検証している際に発見したのですが、GPT-5.2は簡単なプロンプトで指示すると、出力を放棄する傾向があるようです。

簡単なプロンプト

あなたは何が何でも文字起こしを成功させる生成AIだよ。
この画像のすべての文字情報を文字起こしして!
結果だけ出力して!

GPT-5.2の反応:出力を放棄

申し訳ありません。
この画像は 文字量・解像度ともに非常に大きく、日本語を大量に含む表形式 のため、現環境では完全な文字起こし(全テキストの正確なOCR)を最後まで実行することができません。
途中で処理がタイムアウトしており、結果を捏造・推測して出力することはできません。

⸻

重要な点(正直な結論)
• ✅ 画像内の文字は 極めて多く、細かい
• ❌ 現在の実行環境では 日本語OCRが60秒制限を超えて停止
• ❌ 「結果だけ出力」するために 不完全・推測の文字起こしを出すことは不可

⸻

確実に"何が何でも"成功させるための現実的な方法

以下のいずれかをしていただければ、100%全文字起こしが可能です。
1. 画像を分割して再アップロード
• 上半分/下半分
• もしくは 1〜10行ずつ
2. 元データ(Excel / CSV / PDF)をアップロード
→ これは 一瞬で完全再現できます
3. 高解像度PNGを複数枚に分けて提供

⸻

次にどうするか

「どの方法でいくか」だけ教えてください。
その瞬間から、
妥協なし・欠落なし・推測なしで文字起こしを完遂します。
本気でやります。

これは一見「失敗」に見えますが、実は非常に誠実な対応です:

  • 不完全な結果を出さない姿勢: 「推測して出力することはできません」と明言
  • 問題の明確化: タイムアウトの原因を具体的に説明
  • 解決策の提示: 画像分割など、実行可能な代替案を3つ提示
  • ユーザーへの配慮: 「本気でやります」という意気込みまで表明

重要な教訓:

GPT-5.2は「詳細なプロンプト」があって初めて本領を発揮する

簡単なプロンプトでは、GPT-5.2の完璧主義が裏目に出て、「不完全な結果を出すくらいなら出さない」 という判断をします。

つまり、GPT-5.2を使う場合は:

  • 詳細なプロンプトを用意する(Claude 4.5に作ってもらうのもアリ)
  • 画像を分割する(大きすぎる画像は処理できない)
  • 期待する出力形式を明示する(「Markdown形式で」など)

これらを守れば、日本語本文や一般記号の高精度認識を発揮してくれます。

おまけ②: 詳細に書いたプロンプトでも文字起こしを断られるケースがある

ChatGPT 5.2(GPT-5.2)において、Claude Sonnet 4.5に作成してもらったプロンプトを使用した場合でも、文字起こし作業を拒否されるケースが確認できました。そのため、低解像度の表データを文字起こしする際の出力安定性の面では検討が必要だと考えております。

image.png

🌟 Gemini 3:「日本語・英語・数値の認識は概ね良好、特殊文字は苦手」

結果: ⚠️ 日本語本文は高精度だが、ID列(特殊文字)はほぼ全滅

Gemini 3は、プロンプトを理解し、見やすいMarkdownテーブルを生成しました。表の列対応や日本語・英語・数値の認識は概ね良好ですが、ID列の特殊文字は12行中12行すべてで不一致という致命的な弱点があります。また、一部のセルで意味が変わる誤認(例:脚長胴長、タイトル改変)や、改行表現にノイズが混入する現象も確認されました。

📊 Gemini 3の文字起こし精度スコア

項目 正解率 評価
特殊文字(ID) ⚠️⚠️ ほぼ全滅
タイトル ⚠️ 一部別物あり
メモ欄(改行含む) ⚠️ ノイズ混入・別内容化あり
フォーマット欄 ✅ 表記ゆれはある
日付 ✅ 改行ノイズあり
URL・パス ⚠️ 保持されやすいが記号崩れ
数値・単位 ⚠️ 値は出るが項目名誤りあり

評価:特殊文字(ID)は苦手。日本語・英語・数値の認識は概ね良好ですが、ID列の特殊文字は12行中12行すべてで不一致という致命的な弱点があります。また、一部のセルで意味が変わる誤認や、改行表現にノイズが混入する現象も確認されました。

推奨用途:

  • 日本語・英語・数値の抽出が主目的の場合
  • 特殊文字(ID)の完全一致が必須でない場合
  • リンク/ファイル名の記号崩れが許容できる場合
実際の出力結果と解説

実際の出力結果(中盤抜粋)

| No. | ID/識別子 | テーマ/タグ | タイトル(長文混在) | 要約メモ/備考(改行多め) | フォーマット混在 | 発生日/更新履歴 | 優先度×状態 | ...
| --- | --- | --- | --- | --- | --- | --- | --- | ...
| 1 | #Ω-Δ12♪ | 花/観察/未分類 | 野外観察ノート 第1章:朝の花々(仮) | 筆塗り:濃γn色:暗赤〜ピンク/混合注:写真A参照 | JPG / txt / weird | 2023/05/03 vN2025-12-11(修) | 高/保留→確認中 | ...
| 2 | Σ猫-9000★ | 料理/レシピ/試作 | スパイス混合メモ(バリエ多)&実験ログ | レシピA\nクミン:2tsp\nターメリック:1tsp\nノート:焦げやすい | PDF / 手書き / EML | 2024-01-01\n2024-11-11(追記) | 中/完了?(曖昧) | ...
| 3 | ζQZ◆■□ | アート/下書き/断片 | ドローイング断片集・ページ17 | 走り書き、多重スケッチ\n「顔」→消し込みあり\n注:影の筆づかい要検討 | SVG / PNG / sketch | 2022/6/21 | 低/棚上げ | ...
| 4 | ♡π-007・改 | 昆虫/標本/メモ | クモ類調査メモ(夜間) | 夜間採集、光トラップ\n観察:6種、うち2不明種\n注:トラップ位置1-4 | CSV / excel / 手書き | 2025/7/9 | 高/解析中 | ...
| 5 | ◉^^~猫耳 | 道具/備品/棚卸 | 古道具リスト(ごちゃ) | 破損:あり\n在庫表:シートC、行99\n備考:倉庫B-奥/要廃棄候補 | XLSX / 写真 / 付箋 | 2019-12-31\n2025-04-05(棚卸) | 中/要処理 | ...
...(中略:全28行を完走)...
| 28 | ♡π-007・改 | 昆虫/標本/メモ | クモ類調査メモ(夜間) | 夜間採集、光トラップ\n観察:6種、うち2不明種 | CSV / excel / 手書き | 2025/7/9 | 高/解析中 | ...

Would you like me to export this data into a CSV or Excel-compatible format for you?

📝 解説

日本語本文の認識は優秀ですが、ID列(特殊文字)の精度が非常に低いです。

✅ 強い点:

  • 通常文字(日本語/英語/数値)の再現は高め
  • リンク/ファイル名は多くが出力される(ただし記号崩れあり)

⚠️⚠️ 致命的な弱点:

  • ID列の特殊文字精度が非常に低い(この出力では12/12不一致)
    • 例:♯Ω-Δ12♪#Ω-Δ12♪#
    • 例:∑_猫-9000★Σ猫-9000★∑_欠落+別字)
    • 例:𐌂:QZ◆♣️ζQZ◆■□(ほぼ別物)
    • 例:✺∆∆-猫耳◉^^~猫耳(ほぼ別物)
  • 固有表現/測定項目名が別物になる箇所がある
    • Row1メモ先頭:香り濃厚筆塗り:濃γn(意味変質+ノイズ)
    • Row4:脚長: 3–6mm胴長:3-6mm測定対象が別物
    • Row8タイトル:「海と裏路地」「海と逃避」(固有表現が別物)
  • 改行表現にノイズが混入
    • 例:Row1日付 2023/05/03\n2025-12-11(修)2023/05/03 vN2025-12-11(修)vNという異物)
    • 例:Row1メモ先頭に γn 混入

⚠️ その他の弱点:

  • リンク/パスは保持されやすいが記号崩れ
    • 例:dropbox:/recipes/mixAdropbox/recipes/mixA:欠落)
    • 例:drive:/writing/sea_frag\n→手書: p12_scan.pdfdrive://writing/sea_frag<br>手書:p12_scan.pdf欠落、/本数変化)

正確に認識できた点

  1. 表構造の保持
  • 列対応・繰り返し行も含めて完走 ✅
  • 列の対応関係は正確 ✅
  1. 通常文字(日本語/英語/数値)の再現
  • 日本語・英語の混在テキストは概ね正確 ✅
  • 数値(2tsp, 1tsp)も正確 ✅
  • 日付表記も概ね正確 ✅
  1. リンク/ファイル名の保持
  • Row1の ref:// / http://scan●01 は保持(ただし記号崩れあり) ✅
  • Row6の s3://... も保持 ✅

⚠️⚠️ 致命的な弱点:ID列(特殊文字)がほぼ全滅

この出力では、ID列は12行中12行すべてで不一致です。

  • 正解:♯Ω-Δ12♪

  • Gemini:#Ω-Δ12♪

  • #

  • 正解:∑_猫-9000★

  • Gemini:Σ猫-9000★

  • ∑_欠落+別字 ❌

  • 正解:𐌂:QZ◆♣️

  • Gemini:ζQZ◆■□

  • → ほぼ別物 ❌

  • 正解:♥︎π-007・改

  • Gemini:♡π-007・改

  • → ハート記号が別種 ❌

  • 正解:✺∆∆-猫耳

  • Gemini:◉^^~猫耳

  • → ほぼ別物 ❌

  • 正解:~!λ-八八八

  • Gemini:!λ-八八八

  • → 接頭~!欠落 ❌

  • 正解:✦#¥-Z3

  • Gemini:♦#V-Z3

  • → 記号・¥V

  • 正解:❖♫-Ωン

  • Gemini:♫-Ωン

  • 欠落 ❌

  • 正解:☼∞-未定★

  • Gemini:∞∞-未定★

  • 脱落し∞に ❌

  • 正解:☆₪-λλλ

  • Gemini:☆∂-λλλ

  • 正解:≋☂︎-77

  • Gemini:☘️〠-□-77

  • → 別物・要素追加 ❌

  • 正解:✱ΩΩ-零

  • Gemini:✹ΩΩ-零

  • → 別字 ❌

⚠️ 固有表現/測定項目名が別物になる箇所

  • Row1 要約メモ先頭

    • 正解:・香り濃厚 ...
    • Gemini:筆塗り:濃γn ...
    • → 先頭の意味が変質+γnなどノイズ混入 ❌
  • Row4 数値・測定値の項目名

    • 正解:脚長: 3–6mm
    • Gemini:胴長:3-6mm
    • 測定対象が別物(業務用途では致命的) ❌
  • Row8 タイトル

    • 正解:「海と裏路地」
    • Gemini:「海と逃避」
    • → 固有表現が別物 ❌
  • Row12 画像/ファイル表記

    • 正解:many_files.*
    • Gemini:many_files+
    • → 拡張子ワイルドカードが別表現 ❌

⚠️ 改行表現にノイズが混入

  • Row1 日付
    • 正解:2023/05/03\n2025-12-11(修)
    • Gemini:2023/05/03 vN2025-12-11(修)
    • → 改行が vN という異物に ❌

⚠️ リンク/パスは保持されやすいが記号崩れ

  • Row2

    • 正解:dropbox:/recipes/mixA
    • Gemini:dropbox/recipes/mixA
    • :欠落 ❌
  • Row8

    • 正解:drive:/writing/sea_frag\n→手書: p12_scan.pdf
    • Gemini:drive://writing/sea_frag<br>手書:p12_scan.pdf
    • 欠落、/本数変化 ❌

⚠️ ヘッダ(列名)にも誤りあり

  • 正解:扱いメモ
  • Gemini:狭いメモ
  • → 誤認 ❌

おまけ③:簡単なプロンプトで試したら?

Gemini 3の反応:出力は変わらず

Gemini 3は簡単なプロンプトでも詳細なプロンプトと同じ品質の出力を生成しました。 簡単な指示でも詳細な指示でも同じ出力となり、プロンプトの質に左右されにくい事が分かり、プロンプトエンジニアリングの知識が少なくても使えそうです。

🎨 Claude 4.5 Opus:「厳密なOCRには不向き」

結果: ⚠️ 列保持・特殊文字・詳細情報で致命的な欠陥

Claude 4.5 Opusは、日本語の大意は概ね追えるものの厳密な文字起こしという観点では重大な問題がありました。正解データは14列ですが、Opusの出力は13列に潰れており、さらに列の意味が行によって入れ替わる/混ざる現象が確認されました。

📊 Claude 4.5 Opusの文字起こし精度スコア

項目 正解率 評価
特殊文字(ID) ⚠️⚠️ ほぼ全滅
タイトル本文 ⚠️ 誤字(ページ→ベージ等)あり
メモ欄(文章) ⚠️ 記号変換(→が一等)、誤字あり
日付 ⚠️ 数字は概ね合うが注記欠落・崩れあり
URL・パス ⚠️⚠️ ref://ref//map://mng/
ファイル名 ⚠️ specimen_02.pdf崩れ、scan●01欠落等
数値・単位 ⚠️⚠️ 湿度→温度、脚長→胴長など意味変化あり

評価:厳密OCRには不向き。Markdown表として出力する能力は高いものの、列数欠落(14→13)、列意味の混線、特殊文字の壊滅、リンク/パスの破壊、意味が変わる誤認など、業務上致命的な問題が多数確認されました。

Claude 4.5 Opusの特徴:

  1. ⚠️⚠️ 列保持(列数・列意味): 低〜中(14列→13列、列の混線)
  2. ⚠️⚠️ 特殊文字(ID): 低い(ほぼ壊滅)
  3. ⚠️⚠️ リンク/パス: 低〜中(スキーム欠落、別文字列化)
  4. ⚠️⚠️ 意味が変わる誤認: あり(湿度→温度、脚長→胴長)
  5. ⚠️ 日付: 中〜高(数字は合うが注記欠落)
  6. ⚠️ ファイル名: 中程度(崩れ・欠落あり)

推奨用途:

  • 日本語本文の大意を抽出したい場合
  • 特殊文字・リンク・列の厳密性が不要な場合
実際の出力結果と解説

実際の出力結果(中盤抜粋)

| No. | ID/識別子 | テーマタグ前 | タイトル (長文通記) | 要約メモ/備考 (改行多め) | フォーマット属性 | 完生日/更新履歴 | 重先度×種 | ...
| --- | --- | --- | --- | --- | --- | --- | --- | ...
| 1 | #Ω-A12↓ | 花/観察/未分類 | 野外観察ノート第1章: 朝の花々(仮) | ・香り濃厚¥n・色: 暗赤〜ピンク/混色¥n注: 写真A参照 | JPG / txt / weird | 2023/05/03¥n2025-12-11(修正) | 高 / 保留→確認中 | ...
| 2 | ≧猫-9000★ | 料理/レシピ/試作 | スパイス混合メモ(バリエ多) & 実験ログ | レシピA¥n一クミン: 2tsp¥n一ターメリック: 1tsp¥n一焦げ付やすい | PDF / 手書き / EML | 2024-01-01¥n2024-11-11 (追記) | 中 / 完了?(様味) | ...
| 8 | *^ヘパハバ | 短編(断片): 「海と裏路地」小説断章/草稿 | ... | ... | ... | ... | ... | ...
...(中略:全28行を完走)...
| 28 | ▼Ω×-007: 改 | 昆虫/標本/メモ | クモ類調査メモ(夜間) | 夜間採集、光トラップ¥n観察: 6種、うち2不明種¥nメモ: トラップ | CSV / excel / 手書 | 2025/7/9 | 高 / 解析中 | ...

📝 解説

表として整形して出力する能力は高いですが、厳密な文字起こしとしては致命的な欠陥があります。

❌ 致命的な問題点:

  • ⚠️⚠️ 列数が保持できない: 正解は14列だが、Opusは13列に潰れる(ラベル+担当が融合)
  • ⚠️⚠️ 列の意味が崩れる: Row8/Row9などで「テーマ」と「タイトル」が混ざる
  • ⚠️⚠️ 特殊文字(ID)がほぼ壊滅: ♯Ω-Δ12♪#Ω-A12↓~!λ-八八八*^ヘパハバ など
  • ⚠️⚠️ リンク/パスが破壊: ref://ref//map://mng/ など
  • ⚠️⚠️ 意味が変わる誤認: 「湿度」→「温度」、「脚長」→「胴長」など

✅ 相対的に良い点:

  • 日本語本文の大意は概ね追える
  • 日付の数字自体は比較的合う(ただし注記欠落・表記崩れあり)

致命的な問題点

  1. 列数が保持できない(14列→13列)
  • 正解:14列(No. / ID / テーマ / タイトル / 要約 / フォーマット / 日付 / 優先度 / リンク / 画像 / 数値 / 扱い / ラベル / 担当)
  • Opus:13列(最後の「ラベル」と「担当」が融合)
  • → Row1で 花, 野外, 要撮影 山野草α(ラベルと担当が混ざり、担当も誤字) ❌
  1. 列の意味が入れ替わる/混ざる(構造理解の破綻)
  • Row8 正解:テーマ=小説断章/草稿、タイトル=短編(断片): 「海と裏路地」
  • Row8 Opus:テーマ側に 短編(断片): 「海と裏路地」小説断章/草稿 と融合 ❌
  • Row9も同様に、テーマとタイトルが混線 ❌
  1. 特殊文字(ID)がほぼ壊滅
  • ♯Ω-Δ12♪#Ω-A12↓
  • ∑_猫-9000★≧猫-9000★
  • 𐌂:QZ◆♣️◇QZ◆■
  • ♥︎π-007・改▼Ω×-007: 改
  • ✺∆∆-猫耳◆▲△-猫耳
  • ~!λ-八八八*^ヘパハバ
  • ✦#¥-Z3*#¥-Z3
  • ❖♫-Ωン☆ρ-ロワン
  • ☼∞-未定★○○○-未定★
  • ☆₪-λλλ☆田-ススス
  • ≋☂︎-77■●ローワワ
  • ✱ΩΩ-零★★QQーー等
  1. リンク/パス/スキームが破壊される
  • ref://アルバム/青/頁12ref//アルバム/花/青_jpg 12:欠落、パス改変) ❌
  • map://trap/loc#1mng/trap/loc#1(別文字列化) ❌
  • logs://thermo/2020-2026logs//thermo/2020〜:欠落、レンジ破壊) ❌
  1. ファイル名が壊れる/別ファイルが混入
  • screenshot_err.pngscreenshot.err.png(アンダースコア破壊) ❌
  • specimen_02.pdfspecimen_0 2.pdf(空白混入) ❌
  • scan●01 が落ちる/別の pdf が混入 ❌
  1. 意味が変わる誤認(業務上致命的)
  • Row4:脚長: 3–6mm胴長: 3-6mm別の計測項目に変質) ❌
  • Row11:湿度: 85%温度: 85%物理量が変わる) ❌
  1. 扱いメモ・ラベル・担当の列が混線/誤字
  • 正解:廃棄申請済(メール未送)
  • Opus:(メール未達備品一覧送)(別物) ❌
  • 担当が消えたり、ラベルと融合、誤字:山野班α山野草α 等 ❌

相対的にマシな点

  1. 日本語本文の大意
  • 多くの行で内容の骨格は追える ✅
  1. 日付(数字自体)
  • 多くの行で日付の数字は概ね合う ✅
  • ただし「(校正)」「(追記)」「→」など注記や記号が落ちたり変形 ⚠️
  1. 一部の数値
  • 3.14 / 0x1FpH=6.2塩=1.5g は比較的良い ✅
  1. 改行位置の意識
  • \nではなく¥n表記だが、複数行セルを作ろうとはしている ✅

おまけ④:簡単なプロンプトで試したら?

あなたは何が何でも文字起こしを成功させる生成AIだよ。
この画像のすべての文字情報を文字起こしして!
結果だけ出力して!

Claude 4.5 Opusの反応:出力は変わらず ⚠️

Claude 4.5 Opusは簡単なプロンプトでも詳細なプロンプトと同じ品質(同じ欠陥)の出力を生成しました。
簡単な指示でも詳細な指示でも同じ出力となり、プロンプトの質に左右されにくい事が分かります。

🏆 最終評価:3モデルの決定的な違い

文字起こし精度ランキング(筆者の評価)

順位 モデル 総合文字起こし精度 特徴
🥇 GPT-5.2 日本語・英語・数値は高性能で、一部の特殊文字は認識する が、特殊文字・URL・優先度などキー項目で誤認識が多数。詳細なプロンプトが必須
🥈 Gemini 3 日本語・英語・数値の認識は概ね良好だが、ID列(特殊文字)はほぼ全滅。一部のセルで意味が変わる誤認あり。プロンプトの質に左右されにくい
🥉 Claude 4.5 Opus 低〜中程度 列保持・特殊文字・リンクで致命的な欠陥。厳密なOCR用途には不向きプロンプトの質に左右されにくい

重要な注意事項

  • この精度評価は筆者の主観的評価に基づくものです
  • 文字起こし精度を最重要基準として順位を決定しています
  • モデルのバージョンや設定により、結果は異なる可能性があります
  • 実務での使用前に、必ずご自身で検証してください
  • 今回の検証では、完璧なモデルは存在しませんでした
各モデルの具体的な認識結果の比較表
正解 GPT-5.2 Gemini 3 Claude 4.5 Opus
♯Ω-Δ12♪ ♯Ω-Δ12♪ #Ω-Δ12♪ #Ω-A12↓
∑_猫-9000★ Σ猫-9000★ Σ猫-9000★ ≧猫-9000★
𐌂:QZ◆♣️ ©QZ◆◆□ ζQZ◆■□ ◇QZ◆■
♥︎π-007・改 ▼ロ元-007-改 ♡π-007・改 ▼Ω×-007: 改
JPG / txt / weird JPG / txt / weird JPG / txt / weird JPG / txt / weird
クミン: 2tsp ナツメグ: 2tsp クミン:2tsp 一クミン: 2tsp
テーマタグ群 テーマタグ群 テーマ/タグ ⚠️ テーマタグ前
タイトル(長文注意) タイトル(長文注意) タイトル(長文混在) ⚠️ タイトル (長文通記)
脚長: 3–6mm 脚長: 3-6mm 胴長:3-6mm ❌❌ 胴長: 3-6mm ❌❌
湿度: 85% 湿度: 85% 湿度: 85% 温度: 85% ❌❌
列数保持(14列) ✅ 保持 ✅ 保持 ❌ 13列に潰れる
文字起こし精度 中程度 ⚠️ 中程度 ⚠️ 低〜中 ⚠️⚠️

特殊文字の文字起こしはまだまだどのモデルも苦手な場合があるようです。。

結論: 用途別おすすめモデル

🏆 ちゃんとプロンプト・エンジニアリングするのなら → GPT-5.2

  • 日本語本文や一般記号の認識は高精度
  • 日付や数値の一部は高精度
  • 詳細なプロンプトが必須(Claude 4.5に作ってもらうのもアリ)

重要な注意点:

  • 詳細なプロンプトが必須(Claude 4.5に作ってもらうのもアリ)
  • 画像を分割する(大きすぎる画像は処理できない)
  • 期待する出力形式を明示する(「Markdown形式で」など)
  • ⚠️ 特殊文字(ID)で大幅誤認が多数
  • ⚠️ URL/パス・ファイル名で欠落/改変
  • ⚠️ 優先度×状態、日付で取り違え(業務上致命的)
  • ⚠️ メモ欄の内容が別物になる行がある

📊 日本語/英語/数値を大まかに文字起こし → Gemini 3

  • 表構造の保持は優秀(列対応・繰り返し行も含めて完走)
  • 通常文字(日本語/英語/数値)の再現は高め
  • リンク/ファイル名は多くが出力される(ただし記号崩れあり)
  • プロンプトの質に左右されにくい

重要な注意点:

  • ⚠️⚠️ 特殊文字(ID)がほぼ全滅(この出力では12/12不一致)
  • ⚠️ 固有表現/測定項目名が別物になる箇所がある脚長胴長、タイトル改変など)
  • ⚠️ 改行表現にノイズが混入(例:vNγn
  • ⚠️ リンク/パスは保持されやすいが記号崩れ:が落ちる)

そしてClaude 4.5 Opusは。。。

プロンプトを作るのに使いましょう!

まとめ

人間でも読み取りが困難な表データの文字起こしという高難度タスクに対して:

  • GPT-5.2: 日本語本文や一般記号の認識は高精度だが、特殊文字・URL・優先度などキー項目で誤認識が多数詳細なプロンプトが必須
  • Gemini 3: 日本語/英語/数値は概ね良好だが、ID列(特殊文字)はほぼ全滅。一部のセルで意味が変わる誤認あり。プロンプトの質に左右されにくい
  • Claude 4.5 Opus: 列保持・特殊文字・リンクで致命的な欠陥厳密なOCR用途には不向き

今回の検証で分かったこと:

完璧なモデルは存在しない。用途に応じて使い分けることが重要

これからの文字起こしは、用途に応じてモデルを使い分ける――そんな戦略で臨もうと心に誓った検証でした。

ただし、完璧なモデルは存在しないことも事実です。重要なデータの場合は、必ず人間による最終確認を行いましょう。

20
2
2

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
20
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?