無料のノーコード生成AI開発ツール(ADFI生成AI)で、紙書類のスキャンデータから必要な情報だけを抽出する生成AIアプリを作ってみました!
これまで、OCRでは、紙書類の全ての文字を抽出してデータ化しまうので、必要な情報だけ抽出することができませんでした。
この生成AIアプリを使えば、必要な情報だけを紙書類のスキャンデータから一発で抽出することができます!
しかも、手書き文字や外国語もOKです!
これで、紙書類を手入力する作業は、この世から消滅ですね!
作成手順は、以前の記事「【RAG】自社データを使って回答する生成AIチャットをノーコードで作る手順【ChatGPT】」で解説しています。
試したデータ
紙の請求書をスキャンしたデータで試してみました!
(本物の紙の請求書なので、個人情報は赤字で伏せています)
invoice_20220809.pdf:1枚のみの請求書のPDF
invoice_20220502.pdf:3枚の請求書を1ファイルにまとめたPDF
情報抽出AIアプリ
無料のノーコード生成AI開発ツール「ADFI生成AI」で、わずか5分(初期セットアップ時間を除く)で作成しました。
作成手順の記事:【RAG】自社データを使って回答する生成AIチャットをノーコードで作る手順【ChatGPT】
利用手順
エクセルファイルで、抽出項目リスト(抽出したい項目のリスト)を作成します。
1列目(必須):抽出する項目名。
2列目(オプション):その項目をドキュメント内で特定するための補足情報。
「抽出項目リスト名」に好きな名前を入力した後、「ファイルの選択」をクリック。
先ほど作成したエクセルファイルのリストを選択します。
「アップロード」をクリックすると、抽出項目リストのアップロードが実行されます。
次に、アップロードした抽出項目リストのラジオボタンを選択した状態で、「ファイルの選択」をクリックします。
情報抽出したい紙書類のスキャンデータ(PDFまたは画像)を選択します。
「情報抽出を開始」をクリックすると、選択したスキャンデータから情報を抽出します。
抽出結果のCSVファイルをダウンロードします。
実行結果
1枚のみの請求書のPDF
全て完璧にデータを抽出できました。
請求書には請求元の会社名と請求先の会社名が記載されていますが、抽出項目リストの2列目で指定した通り「請求書の宛名の社名」を正しく抽出していました。
また、複数個所に記載されている「合計金額」も、正しく抽出されています。
アルファベットと数字が混ざっている「処理番号」も正確でした。
3枚の請求書を1ファイルにまとめたPDF
こちらも、3枚の書類全てを完璧にデータを抽出できました。100%正確です!
なお、抽出結果のCSVファイルには、1ページ目から順に各項目の抽出結果が記載されていました。
かかった費用
このAIエージェントの費用はどのくらいかというと、開発費は0円!
なんと、AI開発ツールであるADFI生成AIは無料で利用できるので、お金をかけずに生成AIアプリを作成できます!
ランニング費用としては、ChatGPT(OpenAI API)の使用量に応じて、OpenAI APIの利用料が発生します。
使用する生成AIモデルの種類や、情報抽出するデータ量でトークン数が変わってくるため、どのくらい費用がかかるか一概には言えません。
あくまでも参考の数字ですが、
今回のPDFの情報抽出で計測したところ、2ファイルのPDF(合計4ページ)の情報抽出を行って、料金は、0.01ドル(=約1.4円)でした、
つまり、紙書類1ページあたり、約0.35円で情報抽出できる計算になります。
仮に、1か月間に1000枚の紙書類を情報抽出したとしても月350円ですので、激安ですね!