第7回では、AI Centerを利用してAIモデル(InvoicesJapan(請求書 - 日本) - ML パッケージ)を再トレーニングする方法、および再トレーニング済みのAIモデルの利用方法について説明しました。Studioで利用できるエンドポイントを発行するために、AI Centerでは以下ような複数の操作が必要でやや複雑です。
2023.4のDocument Understandingでは、よりシンプルに上記のことができるようになりました。この記事で説明するワンクリック抽出器作成機能を利用すれば、AIに詳しくなくてもMLモデルのデプロイまで簡単に実現できて、第7回と同じことができるようになりました。
この記事で必要なデータ、及びサンプルワークフローはこちら(08.Oneclick_extrator)にアップロードしましたので、ご利用ください。
1. Document Understandingでのプロジェクト作成及び関連設定
プロジェクトでは、ドキュメントの種類定義や分類器及び抽出器の作成ができます。
プロジェクトの作成
手順:
- UiPath Document Understanding を開きます。
- [新しいプロジェクト] ボタンをクリックします。
-
[新しいプロジェクトを作成] ウィンドウで、名前やOCRメソッドを入力します。今回は日本語請求書の処理をするので、OCRメソッドでは[UiPath Chinese-Japanese_Korean OCR]を選択します。
ドキュメント種類の作成
手順:
- プロジェクトの画面にて、[新しいドキュメントの種類]-[半構造化AIを使用] ボタンをクリックします。
- 次の [新しいドキュメントの種類を作成(半構造化AI)] 画面で、必要な項目を入力して作成します。
- 不要な標準フィールド及び列フィールドのチェックを外して、必要な項目だけを残ります。参考までに、残ったのは:
- 標準フィールド:
- Vendor Name
- Billing Name
- Invoice Number
- Total Amount
- 列フィールド:
- Description
- Quantity
- Unit Price
- Line Amount
- 標準フィールド:
ドキュメントのラベリング
次は、Document Managerでドキュメントのラベリングを実施します。
手順:
- Document Manager画面で、[インポート] をクリックして、用意したサンプルドキュメントをアップロードします。
- アップロード及び次のインポートをクリックします。
- 以下の画面で、各ドキュメントに対してラベリングを実施します。ラベリング方法は第七回でのドキュメントラベリングと同じですので、そちらをご参照ください。
右上の予測ボタンと併用しながら作業すると、さらに効率的にラベリングできます。 - 繰り返して全てのページをラベリングします。
抽出器の作成とトレーニング
次はドキュメントの抽出器を作成しますので、ラベリング済のデータセットをトレーニングします。
手順:
-
[新しい抽出器]→[自動トレーニング] をクリックします。
- 抽出器名や先ほど作成したドキュメント種類、及びモデルとバージョンを選択して、[トレーニング] をクリックします
- トレーニングが完了までに暫く時間がかかりますので、ステータスが利用可能になったら、エンドポイントの発行ができる状態になります。
- 以下の図のように、作成済の抽出器の右の ... をクリックして、URLをコピーをクリックします。
2. 作成済の抽出器を利用します
上記の操作で、30枚のドキュメントをラベリングして、ラベリングしたデータセットを利用して、該当ドキュメントの抽出器を作成しました。
これから、第5回 基礎編 テンプレートを使って日本語請求書からデータ抽出しようで作成してワークフローをベースにして、作成済の抽出器を利用して、ドキュメントを処理します。
作成済の抽出器とUiPathの用意したデフォルトの請求書モデルの違いがエンドポイントですので、Config.xlsxを開いて、SettingsシートでのInvoicesEndpointを変更する必要があります。
- 変更前:https://du.uipath.com/ie/invoices_japan
- 変更後:URLをコピーで取得したURL
それ以外の修正は不要です。実行して、デフォルトの請求書モデルの結果と比較してみてください。
3. 抽出器の再学習について
抽出器の詳細画面からワンクリックで再学習をする機能はありませんので、AI Center での手動トレーニング・デプロイが必要です。操作方法について、以下の記事をご参照ください。
4. 最後に
Document Understanding の分類器の画面から、ワンクリックで『分類器』を作成できるようになりました。操作方法もとても簡単です。詳細は以下の記事をご参照ください。
ワンクリック抽出機能を利用すると、Document Understanding のインターフェイスから直接ドキュメントの抽出器を簡単に作成できます。
Document Understanding内の新しいユーザー エクスペリエンスを利用することで、AI Center でデータセット、パイプライン、ML スキルを手動で作成する必要がなくなるので、ぜひお試しください。