本記事と併せて以下の記事もご覧ください。
IDP by Workatoは、生成AIをベースとしたOCR機能で、従来のパターンマッチングによるOCRとはアプローチが異なります。
OCRはOptical Character Recognition(光学文字認識)の略称ですので、IDP by WorkatoをOCRと呼ぶことは適切ではありませんが(ICR=Intelligent Character Recognition インテリジェント文字認識と呼称するのが本来は適切ですが)、便宜上OCRと呼ぶことにします。
これまでOCRを利用された経験のある方であれば、数字の「1」とアルファベットの「I」(アイ)あるいは「l」(エル)、数字の「0」とアルファベットの「O」(オー)、漢数字の「1」と記号の「-」(ハイフン)など、似た文字を誤認識するということは、経験上あると思います。
IDP by Workatoにおいても、同様の誤認識を行う場合もありますが、これに加えてハルシネーション(異なる情報を生成する事象)を引き起こす場合もあります。この点は、従来型のOCRには見られない事象と言えます。
※以下の「履歴書の書き方」をサンプルに利用
なお、幸いなことに、IDP by Workatoでは認識結果に対するスコア(Confidence scores)が出力され、この結果をもとに認識精度を判断することが可能です。
目安として、Confidence scoresが9割を下回るフィールドについては、誤認識あるいはハルシネーションが生じている可能性があります。
よって、IDP by Workatoの利用にあたっては、認識結果をそのままシステムへセットするのではなく(認識結果を鵜呑みにするのではなく)、認識結果とシステムへの値セットの間に人による意思決定や修正のプロセスを挟む(例えば、SlackやTeamsへ認識結果を連携し、各コミュニケーションツール上のUIで修正を行う)、あるいはシステムへセット後に担当者へ内容の確認と修正を指示する仕組みの運用を行う等、何らかの段階において人が介在する仕組みとすることを推奨します。
また、IDP by Workatoのような生成AIをベースとしたOCRを利用する際は、従来のOCRの常識を捨てて利用する必要があるでしょう。例えば、AI OCRにおいてはハルシネーションが生じる可能性は常にあり、それはAI OCRにおける常識になります。「OCRはこうあるべき」という考えがある場合は、ハルシネーションが起こる事象についてなかなか納得いかないところもあるかもしれませんが、技術は常に変化するもの、進化するものとして理解いただけましたらと思います。