More than 1 year has passed since last update.

UiPath (produced with UiPath Friends) Advent Calendar 2023

@Kajiitain

UiPath

【UiPath】バージョン「23.10」AI / Document Understanding 機能改善紹介

Last updated at 2023-12-18Posted at 2023-12-18

はじめに

本記事では、UiPath バージョン 23.10 の AI / Document Understanding の機能改善を幾つかピックアップして紹介します。
記事の内容は、個人の見解または確認結果であり、UiPath の公式見解ではありません。
製品仕様や参考画像は 23.10 バージョンのもので構成しています。

分類はおこなわず、抽出対象のドキュメントを直接指定する場合、「ドキュメントの種類のID」欄を設定します。
ドキュメントの種類のIDは、タクソノミーマネジャーで確認できます。（キャプチャの黄色でハイライトされている部分です）

「Manage Prompt」のリンクをクリックし、タクソノミーで定義した各項目の説明文を（Prompt欄に）入力します。

たったこれだけの設定で完璧にデータ抽出ができるんです！！！

（読み込ませた帳票イメージ）

（CJK-OCRの読み取り結果（ドキュメントテキスト））

★☆ Prompt のコツ

キーワードを変えてみる（（例）「請求元の会社名」や「ベンダー名」だと取引先名称を拾ってきていたが、「製造元の会社名」に変更したら意図通りになった）
不要なものは明示する（（例）「銀行名」のみ指定した場合、「支店名」も含んで出力された）

2）Generative Classifier（生成AIをもちいた分類器）

「ドキュメント分類スコープ」を配置し、「Generative Classifier」を中に挿れます。

「Manage Prompt」のリンクをクリックし、分類のテスト用に準備した3つドキュメントの説明文を入力します。

1番の抽出器のときと同様に請求書を読み込ませると、「invoice_japan」の分類結果が返ってきます！！

次にアンケート用紙を読み込ませたところ、「アンケート」の分類結果が返ってきました！！

（読み取らせたアンケート用紙サンプル）

スコープの「分類器を設定」のチェックをONにしていない場合、どのドキュメントにも分類されず、結果が0件で返ってくるのでご注意ください。

分類器の設定で「アンケート」のチェックをOFFにしたところ、請求書以外の hogehoge ドキュメントに正確に分類されました！

3）Document Manager の「予測」機能の強化

ラベル付けを自動でおこなってくれる「予測」機能が強化されました。
従来の予測は 『モデル（特化型のAI）』 の予測結果でラベル付けをおこなっていましたが、新たに 『生成AI モデル』 の予測と 合わせ技（特化型＋生成AIモデル） の2つが加わりました。

合わせ技のロジックは不明（おそらく信頼度の様なスコアが裏にある）ですが、手元で4種類くらいの請求書サンプルを読ませた限り、合わせ技の『予測』が最も精度は高かったです。
具体的には、現時点（2023/12/18）の請求書モデル（invoice_japan）は事前学習データに過不足があるのか、金額系の項目の認識が弱い傾向があります。
生成AI モデルの場合、税額や税抜き合計、割引金額などは意味合いをカラム名などから判断できているのか、補完できてるケースを幾つか確認できました。

同様に、現時点（2023/12/18）の請求書モデル（invoice_japan）の標準フィールドには存在しない口座系の情報についても、生成AI モデルでは学習なしで抽出できることを確認しました↓↓

来年、一般向けにリリースされる頃、どこまで改善されるかは未知数ですが、現時点（2023/12/18）では生成AI モデルの予測結果（精度）は安定しません。

（良い例：標準フィールドの抽出項目数15 うち正解が10項目）※なお、合わせ技だと抽出項目数16 うち正解が13項目誤った3項目は特化型モデルでは抽出しなかった Payment Address や Shipping　Charges とそもそも本帳票には居ない請求日です。

（悪い例：標準フィールドの抽出項目数5 うち正解が4項目）※なお、合わせ技だと抽出項目数8 うち正解が7項目

（明細の例：表を解析して最小粒度の明細行のみ抽出した？）

Document Manager 上、生成AI モデルで抽出する際の Prompt の入力画面が見当たらない。（ガイドをみても確認できない）このため、予測結果のチューニング方法は不明です。
https://docs.uipath.com/ja/document-understanding/automation-cloud/latest/user-guide/document-manager#predict%2Fprelabelling

さいごに

生成AI モデルの抽出結果は予想に反して、同じ条件下では私が見た限り動作は変わりませんでした。
期待結果が得られない項目（フィールド）はあるものの、もっとも危惧した結果が"都度変わる"リスクはなさそうです。
従来の特化型AIとランニングコストでどの程度の差が出るかは今後調べていきますが、精度が特化型と同程度まで向上した場合は導入コストが低い分メリットが大きくなりそうな良い機能です☀　今後に期待！！

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

【UiPath】バージョン「23.10」AI / Document Understanding 機能改善紹介

はじめに

目次

1）Generative Extractor（生成AIをもちいた抽出器）

2）Generative Classifier（生成AIをもちいた分類器）

3）Document Manager の「予測」機能の強化

さいごに