みなさん、はじめまして。
IBMのIntelligent Content Services というチームでOCRソリューションを展開している清水と言います。
初回投稿は、ここ1、2年OCR業界でも話題になっているAIとの連携について、ご紹介させていただければと思います。
1. はじめに:OCRとDatacapとは?
Datacapは、IBMが提供する高度なOCR(Optical Character Recognition 光学文字認識)技術を中心とした文書のデジタル管理全体の自動化と効率化を提供するソリューションです。
OCRって何でしたっけ?という方が、この記事に興味を持つことはあまりないのかもしれませんが、簡単にOCRについて説明すると、コンピュータが画像から文字を認識する機能のことです。具体例だとハガキの郵便番号認識などで使われている技術です。
これまで、紙文書や画像からテキストデータを認識して既存のシステムに入力する作業は手作業で行われることも多く、入力ミスのチェックなどに膨大な時間を要するため、業務プロセスの効率化が強く求められていました。
郵送で送付されてきた紙の請求書や申請書を、改めて既存のコンピュータ・システムに打ち込む作業って想像できますよね。
皆さんも職場や、病院や、公共機関の窓口で、さまざまな申請を手書きで紙に記載してきたと思いますが、それを受け取った側は、その後その手書きの申請書の内容をシステムに打ち込む作業が必ず発生していました。
一方、最近では、居酒屋やファーストフード店などで、顧客が自分自身で注文を入力するようなスマホ・アプリが普及しています。これは、紙や顧客との会話からシステムに企業側で入力する負担がなくなり大幅な作業効率向上が達成できているためです。人手不足の今の時代にマッチしたシステムとして進化を続けています。
しかし、企業活動に欠かせない、見積書、請求書や、受領書などの販売関連の情報連携は、依然として7割程度が紙ベースで行われていると言われています。
参考:
各種システム間の標準化が難しいのも一因ですが、データだけではなく紙を手元に残せる安心感にも依然として大きな需要があると思われます。
Datacapは、こうした企業間の紙の書類の課題に対応するために開発され、紙ベースの文書をデジタル化し、ビジネスプロセスを自動化することで、多くの企業において業務の効率化を実現している製品です。単に文字を認識するだけでなく、文書の自動分類やデータ抽出し、バックエンドのシステムに連携することが可能になります。さらにはブラウザ上での補正入力や再鑑といったワークフローの自動化機能を備えているため、各種業界で幅広く利用される理由となっています。
2. OCRの基本と必要性
OCRは、紙や画像上の文字情報をテキストデータに変換する技術です。繰り返しですが郵便番号の仕訳などでは数十年前からすでに実用化されていました。
一方、近年の目覚ましい文字認識技術の向上から、大幅に業務の効率化を図る手段として、近年、改めて注目されています。皆さんもスマホでカメラをかざしただけで文字認識される場面を見たことがあるのではないでしょうか。
これをビジネスの場に応用すると、例えば、金融機関においては契約書や申込書、医療機関ではカルテや診断書、製造業界では過去の膨大な設計図面など、膨大な数の文書を迅速にデジタル化し、システム内に取り込むことが可能となります。
また、デジタルデータとして保存することで、検索や集計が容易になり情報管理や分析の精度が向上します。さらに、OCR技術は、文書のレイアウトやフォーマットに合わせた最適な認識を行うため、定型文書や非定型文章からの必要な情報の抽出といった高度な処理にも応用されつつあります。
3. Datacapの主な機能と特徴
Datacapは単なるOCRエンジンではなく、文書管理全体の自動化を提供するソリューションです。
主要な機能として、まずは文書の自動分類が挙げられます。多種多様な文書を事前に定義したフォーマットに従って分類し、必要な情報を抽出し、各種業務システムに連携することが可能です。
特に、定型文書に対しては、キーとバリューの抽出(例えば、キーは氏名でバリューが山田太郎である)を行うことが可能となります。これにより、申込書内の個人情報や契約書の各項目が自動的にバックエンドシステムへ取り込まれる仕組みが実現されます。
また、テキストのフォーマットの検証機能も搭載しており、抽出後のデータが正しい形式(例:日付、数値、特定フォーマットの文字列)になっているかを自動でチェックし、誤認識があった場合はエラー処理を実施する仕組みなども整っています。
ワークフローの最後には、担当者がコンピュータ上で申込書の画像イメージを見ながら、各項目について、OCRが誤認識していないかを確認し、間違いを見つけた場合には、その場で修正するという仕組みもあります。この補正作業はブラウザで動作可能なため、1万件の申込書類を100人の担当者が分担して並列で修正、再鑑することも可能です。
こうした高度な機能は、純粋に紙を見ながら手作業だけで入力することと比べると、手間を大幅に削減するとともに、業務全体の効率向上と精度の確保に寄与しています。
4. これまでの利用シーンと導入事例と課題
前述の通り、OCRは、金融、医療、公共機関など、膨大な文書管理を必要とする業界で実際に活用されています。例えば、金融機関では、ローン申込書や契約書のデジタル化を通じて、手作業による入力ミスを減少させ、処理時間の短縮を実現しています。
具体的には、文書内に含まれるキーバリューペアの抽出や、修正・再鑑プロセスにより、数値や日付、契約番号などが正確に取り出され、システム間での連携がスムーズに行える分野が広がってきています。
これらの導入事例からも分かるように、OCRは多様な業界における文書処理の自動化を支え、業務プロセスの改善に寄与していると言えます。
しかし、まだまだ、適用が難しい場面があったのも事実です。
従来の利用場面は、郵便ハガキ、住民票の申請書、運転免許証、自社の申込文書など、いわゆる定型文書処理が中心でした。1ページの紙で、決まった場所に、氏名など決まった情報が記載されており、それを抽出することを主な目的としていました。
一方、企業間の受発注処理では、各社独自の形式で複数ページ構成のものが中心となります。たとえば、請求書や発注書、領収書などです。
会社ごとバリエーションと、ページレイアウトのバリエーションの、2つのバリエーションを掛け合わせると無限と言っても良いほどになります。また、業務によっては100ページ以上の紙の書類から、必要となるページを選び出し、その中の必要項目だけを抽出したいという要件もあったりします。
このような多種多様な形式が混じっている書類から必要なだけを正確に抽出するには、テンプレート(Datacapの用語ではFinger Print、つまり指紋ですね)が効果を発揮していました。数多くのテンプレートを用意し、受け取った書類のページごとにどのテンプレート(どのタイプの帳票)に合致するかを瞬時に判断し、その上で1ページ単位の処理を行うのです。つまり、どのページの、どの位置に、何の情報が記載されているかを判断し、バックエンドシステムに連携するための情報を抽出していました。
しかし、このテンプレート(Finger Print)作成作業が現場の負担になっていたのも事実です。出現頻度の高い形式だけ用意すれば良いのですが、業界によっては、帳票のバリエーションは、いわゆるロングテールの出現頻度になっており、どこまでテンプレートを作れば効率的なのか悩ましい問題となっていました。
5. DatacapのAIとの連携
そんな状況の中、ここ1、2年で急成長したAIの活用に注目が集まるようになっています。
OCR業界全体において、AI技術や機械学習の進化は著しく、Datacapもその恩恵を受けている製品です。Datacapには、2024年8月に IBM の watsonx.aiとの連携機能が搭載されました。
現行のOCR技術では、文字認識精度はおおむね99%前後に達しているものの、複雑な文脈理解や前後関係を踏まえた誤認識の自動補正といった領域にはまだ課題が残っていました。これは、現行のOCRシステムが主に画像認識的な補正に頼っており、意味解析や文脈判断が十分に行われていないためでした。しかし、最新のAI技術を取り入れることで、文脈に沿った文字認識が現実のものとなりました。
さらに、クラウド連携により、より柔軟な運用環境が整いつつあり、これに伴って業務プロセスのさらなる自動化が促進されつつあります。
今回は、OCR技術や、IBMのOCR製品であるDatacapのこれまでの使用シーンなどを見てきました。
次回は、AIとの連携機能がどのようなものか、どうすれば活用できるのかについて、見ていきたいと思います。
参考: