初めに
OCI Generative AI の VLM(Vision Language Model) を使って、伝票識別の精度をいくつかの観点で検証してみました。
今回使用したモデルは、OCI Generative AI の gemini-2.5-pro です。
結論から言うと、今回試した範囲では、VLM はかなり高い精度で伝票の内容や記入状態を認識できました。
単なる文字抽出だけではなく、人間の業務判断に近い形で内容を理解できる 点が特に優秀だと感じました。
検証ポイント
今回の検証では、以下のような実務でよくあるケースを確認しました。
- 改行されていても、人間の判断では同じ1つのデータとして扱うケース
- 手書き文字の識別
- チェックボックス(□)のオン状態の識別
- 丸印(〇)で選択された項目の識別
OCR では難しくなりがちなポイントも含めて確認しています。
1. 改行されていても、同じデータを「1行」として扱えるか
実務では、帳票上では改行されていても、
人間が見れば「これは1つの項目だ」と判断するケースがあります。
今回の検証では、見た目上は複数行に分かれていても、意味としては1つのデータとして認識できるか を確認しました。
その結果、VLM は単純に行単位で分割するのではなく、
文脈やレイアウトを踏まえて、1つのまとまりとして理解できる ことが分かりました。
この点は、単純な文字認識だけではなく、
「人間ならどう読むか」に近い理解ができている という意味で、非常に優秀でした。
2. 手書きデータの識別
次に、手書きデータの識別を確認しました。
手書き文字は、印字文字に比べて個人差が大きく、
文字の崩れや筆圧の違いもあるため、一般的には難易度が高い領域です。
それでも今回の検証では、VLM は手書き部分もかなり自然に認識 できていました。
もちろん、帳票の品質や文字の癖によって差は出る可能性はありますが、
少なくとも今回の検証結果を見る限り、実務で十分に期待できるレベル だと感じました。
3. □ をチェックオンした場合の識別
続いて、チェックボックスのオン状態の識別です。
帳票では、□ にチェックが入っているかどうかで意味が変わることが多く、
この判定を正しく行えるかは重要です。
今回の検証では、VLM は 「文字」だけではなく、記号や記入状態そのものも含めて認識 できていました。
このようなチェック状態の判定は、
単純なOCRだけでは取りこぼしや誤判定が起きやすい場面ですが、
VLM は画像全体を見ながら判断できるため、かなり相性が良いと感じます。
4. 〇 で選択した場合の識別
最後に、〇 を付けて選択したケースの識別も確認しました。
実際の帳票では、チェックボックスだけでなく、
候補の中から 〇 で選ぶ形式もよく使われます。
このケースでも、VLM はどの項目が選択されているかを適切に認識できていました。
文字認識に加えて、
「どこに印が付いているか」「どの選択肢を示しているか」まで理解できる のは、
VLM の大きな強みだと思います。
まとめ
今回、OCI Generative AI の gemini-2.5-pro を使って伝票識別を検証した結果、
以下のような点で VLM の優秀さ を実感できました。
- 改行されていても、意味的に同じデータを1つとして扱える
- 手書き文字も高い精度で識別できる
- チェックボックスのオン状態を認識できる
- 〇 による選択も正しく判断できる
特に印象的だったのは、
単なるOCRのように文字列を抜き出すだけではなく、
帳票の構造や文脈、記入の意図まで含めて理解しているように見えること です。
伝票や申請書、各種帳票のように、
「文字+レイアウト+記号+手書き」をまとめて扱う必要がある業務では、
VLM は非常に有力な選択肢だと感じました。
今後は、さらに帳票パターンを増やして、
どこまで安定して識別できるかも検証していきたいと思います。




