はじめに
Document Understandingの中国語、日本語、韓国語をサポートする新しいOCRであるCJK OCRがUiPathのComputer VisionによるUI操作の自動化で活用できる様になり、日本語画面でも実用的になってきたので、利用方法を解説します。
なお、Document UnderstandingのOCRを利用していますが、嬉しいことに開発ライセンスやロボットライセンスについているComputer Visionで利用できます。
ちなみにComputer Visionは、下記の様な場面で利用が想定できます。実用的になるに連れ、身近なものになってきそうな予感がします。
・リモートランタイムが利用できない環境でVDIの画面で自動化する場合の活用
・見た目は同じ様に見えても要素属性が想定外に変更される場合の対策(保守負担の軽減)
・要素を認識出来ない場面での部分的な適用
・将来的に画面が出来上がってなくても画面デザインから自動化開発が可能になる?
【参考】
前提
- 2023年2月時点のAutomation Cloudで記載します。
- UiPath Studioはv2022.10.5で記載します。
- UiAutomstionアクティビティv22.10.5で記載します。
Computer VisionでRPA Challengeを自動化する
ここからRPA Challenge(日本語)のサイトを使って、具体的な利用方法を解説して行きます。
CV画面スコープの設定
「CV画面スコープ」を挿入して「UiPathScreenOCR」が入っていた場合、このOCRアクティビティではRPA Challenge(日本語)のサイトを正常に操作出来ません。その場合は「UiPathScreenOCR」を削除し、「OCR - 日本語、中国語、韓国語」に入れ替えます。
また、既に「OCR - 日本語、中国語、韓国語」のAPIキーが入っているかもですが、Document UnderstandingのAPIキーの可能性もあるため、Automation Cloudポータルの「ライセンス」>「ロボットとサービス」の画面からComputer VisionのAPIキーを取得して設定します。
知らなかったらハマりそうですねw
エンドポイントはUiPathDocumentOCRの日本 "https://du-jp.uipath.com/cjk-ocr" を設定します。(2022年6月20日に公開されました。)
掲載しているのは下記サイトです。
知らなかったらハマりそうですね(笑)
まとめ
- Computer Visionで利用する場合の 「OCR - 日本語、中国語、韓国語」APIキーはComputer VisionのAPIキー を設定する。
- Computer Visionで利用する場合の エンドポイントはUiPathDocumentOCRの日本"https://du-jp.uipath.com/cjk-ocr" を設定する。
ワークフローを作成する
「CV画面スコープ」の画面を下記の様に指定する。
「CV文字を入力」を挿入して要素を指定して行きましょう。
ちなみに、要素の指定はCV画面スコープで指定した画像に対して選択になります。
例えば、ダウンロードしたExcelの内容を読み込んで入力するワークフローは下記の様になります。
注釈
- RPA Challengeは登録ボタンをクリックすると入力する項目の場所が変わります。登録ボタンをクリックして画面が変わったらCV画面スコープを再度実施しなければ安定して動作しない様なので、ループの内側でCV画面スコープを都度行ってます。この辺りはComputer Visionを利用の際のコツの1つになりそうです。
- Computer Visionの文字入力はUI 要素にキー ストロークを送信します。IMEのモードや変換操作に関連するトラブルがある場合は必要に応じて言語の設定で英語キーボードを選択し、日本語を無効化して置くのも手です。
おわりに
UiAutomationvアクティビティの22.12.0-previewからターゲットメソッドにComputer Visionが追加されました。まだ、プレビューですが、今後、Computer Visionがより身近になり、例えば要素属性の変化があっても見た目で自動ヒーリングされるって機能が標準化され、より堅牢な要素認識が期待出来そうです。