はじめに
- 本記事では、UiPath バージョン 23.4 の AI / Document Understanding の機能改善を幾つかピックアップして紹介します。
- 記事の内容は、個人の見解または確認結果であり、UiPath の公式見解ではありません。
- 製品仕様や参考画像は 23.4 バージョンで構成しています。
目次
今回紹介する内容は下記になります。
# 1)フィールドのルール設定機能
# 2)データ抽出オートメーションビルダー
# 3)ワンクリック分類器作成
# 4)ワンクリック抽出器作成
# 5)Document Understanding Cloud APIs(DUのWebAPI)
1)フィールドのルール設定機能
タクソノミーマネジャーの各フィールドの設定に「ルール」タブが追加されました。
「ルール」タブでは、フィールドのバリデーションを設定することができます。
重要度レベルは「Must」か「Shoud」を指定でき、「Must」であればルールに合致しない場合、検証ステーションでSubmitできません。
なお、設定可能なルールはフィールドのルールに依って変わります。
例えば、日付(Date)であれば「空でない」と「予想される値」が利用できます。
名前(Name)や住所(Address)であれば、「空でない」「次で始まる」「次で終わる」「次の値を含む」「固定長」「正規表現」が選択できます。
数値(Number)の場合、「空でない」「予想される値」に加えて 「式」 が指定できます。
0円以上の例
最もよく使われる文字(Text)の場合、「空でない」「次で始まる」「次で終わる」「次の値を含む」「固定長」「正規表現」に加えて 「予想される値」と「メールアドレス」 などが指定できます。
2)データ抽出オートメーションビルダー
データ抽出オートメーションビルダーを使えば、ほぼワンクリックのノリで、ドキュメントからOCRでデータを読み取って処理するワークフローを作れます!!(@_@)
[使い方]
2023/09/01時点では、プロジェクト名に日本語が含まれているとジョブの実行ができません。(ASCIIエラーが発生します。)
→ プロジェクト名を英字のみとすれば問題なく実行できます。
実行すると Action Center に読み取り結果が連携されるので、内容を確認・送信し、「再開」ボタンをクリックしてワークフローを進めます。
出力パネルをみると、値が取得できてることを確認できます。
3)ワンクリック分類器作成
Document Understanding の分類器の画面から、ワンクリックで『分類器』を作成できるようになりました!!
前提として、分類対象となる「ドキュメントの種類」はあらかじめ作成しておく必要があります。
「新しい分類器」ボタンをクリックし、「自動トレーニング」 を選択してください。
(手動トレーニングを選択するとモデルの学習とデプロイなどの作業を AI Center で手動でおこなう必要があります。)
次に表示されたダイアログで、分類器の名称と分類対象のドキュメントを指定しトレーニングを実行します。
自動トレーニングが完了すると、以下の様に、利用可能になったMLスキルのエンドポイントをはじめ、データセットやパイプラインのリンクなどが確認できるようになります。
分類器の再学習について
分類器の詳細画面からワンクリックで再学習をする機能はありません。
作成済みの分類器を再学習するには、分類器のトレーニング用アクティビティをもちいて、まずデータセットにデータ連携しましょう。
分類器(分類モデル)の初回学習とデプロイはワンクリックで実現できますが、再学習はトレーニング用アクティビティをもちいたデータセットの連携と AI Center での手動トレーニング・デプロイが必要です。
なお、ワークフローで指定した分類器を再指定できる場合は、新たなデータセットをもとにワンクリックで分類器を作成するのもよいでしょう。
「マシンラーニング分類器トレーナー」を配置し、データセットのフォルダ(「データセット」の直下のフォルダが選択可能)を指定することで、対象のドキュメント種類のフォルダにトレーニング用のデータがアップロードされます。
「マシンラーニング分類器トレーナー」は 分類をおこなったすべてのドキュメントデータをデータセットに連携します。 自動分類と検証済みの分類結果に差があるときのみ連携したい場合、本アクティビティの前に「自動分類結果」と「検証済みの分類結果」を比較し、条件分岐する必要があります。
連携済みのデータセットから再学習に必要なデータをトレーニングデータに追加しましょう。
まずは、「データセットをダウンロード」ボタンをクリックします。
ダウンロードの準備が完了したら「エクスポート」タブから落としましょう。
ダウンロードした「ドキュメント テキスト」データから再学習にもちいるファイルのみ手動でアップロードします。
パイプラインでトレーニングを実施する際は、以下の2点をご注意ください。
マイナーバージョンに「0」を指定するのは、モデル学習における破滅的忘却を避けるためです。
モデルの再学習の例:
UiPath提供の事前学習済みモデル(v1.0) + トレーニングデータ100件 → v1.1
【OK】
UiPath提供の事前学習済み(v1.0) + トレーニングデータ120件 → v1.2
【NG】
追加学習済みモデル(v1.1) + 追加のトレーニングデータ20件 → v1.2
パイプラインでの再学習が完了したら、MLスキルを更新しましょう。
再学習したのに、分類結果の精度が上がらない(というか全く分類されない)ときは「分類器の設定」を失念している(凡ミス)を疑いましょう↓↓
Document Manager で定義した「ドキュメント種類」と、ローカルのタクソノミマネジャーで定義したドキュメントの種類を紐づけができていない場合は分類されません。(黄色でハイライトしている部分に値が入っていることを要確認)
4)ワンクリック抽出器作成
Document Understanding の抽出器の画面から、ワンクリックで『抽出器』を作成できるようになりました!!
前提として、抽出対象となる「ドキュメントの種類」はあらかじめ作成しておく必要があります。
「新しい抽出器」ボタンをクリックし、「自動トレーニング」 を選択してください。
(手動トレーニングを選択するとモデルの学習とデプロイなどの作業を AI Center で手動でおこなう必要があります。)
次に表示されたダイアログで、抽出器の名称と抽出対象のドキュメント、トレーニングに利用する事前学習済みのモデルを指定しトレーニングを実行します。
自動トレーニングが完了すると、以下の様に、利用可能になったMLスキルのエンドポイントをはじめ、データセットやパイプラインのリンクなどが確認できるようになります。
抽出器の再学習について
抽出器の詳細画面からワンクリックで再学習をする機能はありません。
作成済みの抽出器を再学習するには、抽出器のトレーニング用アクティビティをもちいて、まずデータセットにデータ連携しましょう。
抽出器(抽出モデル)の初回学習とデプロイはワンクリックで実現できますが、再学習はトレーニング用アクティビティをもちいたデータセットの連携と AI Center での手動トレーニング・デプロイが必要です。
なお、ワークフローで指定した抽出器を再指定できる場合は、新たなデータセットをもとにワンクリックで抽出器を作成するのもよいでしょう。
「マシンラーニング抽出器トレーナー」を配置し、データセットのフォルダ(「データセット」の直下のフォルダが選択可能)を指定することで、対象フォルダの下に微調整用のデータがアップロードされます。
「マシンラーニング抽出器トレーナー」は 抽出をおこなったすべてのドキュメントデータをデータセットに連携します。 自動抽出と検証済みの抽出結果に差があるときのみ連携したい場合、本アクティビティの前に「自動抽出結果」と「検証済みの抽出結果」を比較し、条件分岐する必要があります。
連携済みのデータセットから再学習に必要なデータを Document Manager でインポートしましょう。
まずは、「データセットをダウンロード」ボタンをクリックし、エクスポートタブの「ダウンロード」リンクからデータセットを取得します。
取得したデータセットの中に微調整用の「fine-tune」というフォルダが在ることを確認します。
微調整用のデータセットフォルダには「documents」「metadata」「predictions」の3フォルダが含まれます。
この「fine-tune」フォルダを任意の名称でZip化し、Document Manager でインポートします。
ガイド参考:
https://docs.uipath.com/ja/document-understanding/automation-cloud/latest/user-guide/document-manager-import-documents#validation-st[…]ataset-import
インポートしたドキュメントデータに、ドキュメント種類で未定義のフィールドが存在すると以下の様なエラーが発生します。
この場合、Document Manager で対象のフィールドを追加してから再度インポートすればOKです。
Document Manager から AI Center にデータセットを連携したら、パイプラインでトレーニングを実施しましょう。
トレーニング時には以下の設定にご注意ください。
マイナーバージョンに「0」を指定するのは、モデル学習における破滅的忘却を避けるためです。
モデルの再学習の例:
UiPath提供の事前学習済みモデル(v1.0) + トレーニングデータ100件 → v1.1
【OK】
UiPath提供の事前学習済み(v1.0) + トレーニングデータ120件 → v1.2
【NG】
追加学習済みモデル(v1.1) + 追加のトレーニングデータ20件 → v1.2
パイプラインでの再学習が完了したら、MLスキルを更新しましょう。
5)Document Understanding Cloud APIs(DUのWebAPI)
DUの画面の右上の「REST API」から WebAPI の実行ツール(Swagger)を起動できます。
[Framework(デジタル化や分類・抽出などのフレームワークのWebAPI)↓↓]
[Document Manager(クラウドの Document Manager のWebAPI)↓↓]
管理 > 組織ID > 外部アプリケーションより、以下のアプリケーションスコープの権限を持つ外部アプリケーションを作成しましょう。
Du.Classification.Api Du.Digitization.Api Du.DocumentManager.Document Du.Extraction.Api Du.Validation.Api
アプリケーションの種類は「機密アプリケーション」を、
リダイレクトURLは未指定で問題ありません。
Swagger のツール画面右上の「Authorize」ボタンクリックし、作成したアプリIDとアプリシークレットを入力しAuthorizeします。
あとは必要なパラメータ指定して実行するだけ!レスポンスコード200(´ω`)
終わりに
以上、バージョン 23.4 の AI / DU の主要機能改善紹介でした。
AI / DU をはじめて触った頃、MLモデル、パイプライン、MLスキルなどが何者か全然ピンとこなかったのが懐かしい。
ワンクリック分類・抽出器作成機能があれば、AIに詳しくなくてもMLモデルのデプロイまで簡単に実現できます!Enjoy your Automation Life!