手書き・チェック・丸印も認識できる？OCI Generative AI の VLM で伝票を読ませてみた

Last updated at 2026-03-17Posted at 2026-03-17

初めに

OCI Generative AI の VLM（Vision Language Model） を使って、伝票識別の精度をいくつかの観点で検証してみました。
今回使用したモデルは、OCI Generative AI の gemini-2.5-pro です。

結論から言うと、今回試した範囲では、VLM はかなり高い精度で伝票の内容や記入状態を認識できました。
単なる文字抽出だけではなく、人間の業務判断に近い形で内容を理解できる 点が特に優秀だと感じました。

今回の検証では、以下のような実務でよくあるケースを確認しました。

OCR では難しくなりがちなポイントも含めて確認しています。

実務では、帳票上では改行されていても、
人間が見れば「これは1つの項目だ」と判断するケースがあります。

今回の検証では、見た目上は複数行に分かれていても、意味としては1つのデータとして認識できるか を確認しました。

その結果、VLM は単純に行単位で分割するのではなく、
文脈やレイアウトを踏まえて、1つのまとまりとして理解できる ことが分かりました。

この点は、単純な文字認識だけではなく、
「人間ならどう読むか」に近い理解ができている という意味で、非常に優秀でした。

次に、手書きデータの識別を確認しました。

手書き文字は、印字文字に比べて個人差が大きく、
文字の崩れや筆圧の違いもあるため、一般的には難易度が高い領域です。

それでも今回の検証では、VLM は手書き部分もかなり自然に認識 できていました。

もちろん、帳票の品質や文字の癖によって差は出る可能性はありますが、
少なくとも今回の検証結果を見る限り、実務で十分に期待できるレベル だと感じました。

続いて、チェックボックスのオン状態の識別です。

帳票では、□ にチェックが入っているかどうかで意味が変わることが多く、
この判定を正しく行えるかは重要です。

今回の検証では、VLM は 「文字」だけではなく、記号や記入状態そのものも含めて認識 できていました。

このようなチェック状態の判定は、
単純なOCRだけでは取りこぼしや誤判定が起きやすい場面ですが、
VLM は画像全体を見ながら判断できるため、かなり相性が良いと感じます。

最後に、〇を付けて選択したケースの識別も確認しました。

実際の帳票では、チェックボックスだけでなく、
候補の中から〇で選ぶ形式もよく使われます。

このケースでも、VLM はどの項目が選択されているかを適切に認識できていました。

文字認識に加えて、
「どこに印が付いているか」「どの選択肢を示しているか」まで理解できる のは、
VLM の大きな強みだと思います。

今回、OCI Generative AI の gemini-2.5-pro を使って伝票識別を検証した結果、
以下のような点で VLM の優秀さ を実感できました。

特に印象的だったのは、
単なるOCRのように文字列を抜き出すだけではなく、
帳票の構造や文脈、記入の意図まで含めて理解しているように見えること です。

伝票や申請書、各種帳票のように、
「文字＋レイアウト＋記号＋手書き」をまとめて扱う必要がある業務では、
VLM は非常に有力な選択肢だと感じました。

今後は、さらに帳票パターンを増やして、
どこまで安定して識別できるかも検証していきたいと思います。