More than 1 year has passed since last update.

【UiPath】Computer VisionでCJK OCR(中日韓)を使い画面表示文字を取得する

Last updated at 2023-08-03Posted at 2023-02-27

はじめに

Computer Visionで新しい日本語対応のOCR「CJK OCR(中日韓)」が利用可能になり、色々と試して見たので備忘録として残していきます。
尚、CJK OCR(中日韓)のエンドポイントはUiPath Document Understandingですので、UiPath Document Understandingも同じ仕様です。
結論から言うとUiPathで標準搭載していたOCRの中では、高い精度で日本語の文字を読取ります。UiPath Document Understandingの日本語精度が飛躍的に良くなったと言うのは、これですね。

CV画面スコープの設定

CV画面スコープの設定は下記のブログを参考にしてください。

Computer Visionで画面からテキストを取得

参考にですがUiPath Demoサイトの経費照会画面で登録した項目を読み取ってみた結果です。
Computer Visionで指定した要素にある１つ１つの文字は正しく読み取れてそうですね。

仕様を考察

ここから備忘録です。
CJK OCR(中日韓)の読取りの仕様が公開されていないので、実際に使って見て蓄積するしかなさそうです。
まだ、これ以外にあると思うので、参考として見てください。

漢字、ひらがな、カタカナと
。、・「」
の文字を便宜上、CJK文字として表現します。

読取り対象	読取り後
英数字（半角）	○
英数字（全角）	全て半角に変換される。変換された数字の間には半角スペースが入る。
CJK文字	文字の間に半角スペースが入る。
カタカナ（半角）	カタカナ（全角）に変換される。文字の間に半角スペースが入る。
英数字（半角）の直後にCJK文字	半角スペースが入る。
CJK文字の直後に英数字（半角）	半角スペースが入る。
CJK文字の間に連続したスペースを入れる	半角スペース１つに変換される。
英数字（半角）の間に連続したスペースを入れる	半角スペース１つに変換される。

後処理のサンプル

取得したテキストを、どう使うかにもよりますが、一部、例で記載しようと思います。

CJK文字間、英数字（半角）直後にCJK文字、CJK文字直後に英数字（半角）の半角スペースを削除（置換）する正規表現

\x20(?=[ぁ-んァ-ヶー一-龯。、・「」])|(?<=[ぁ-んァ-ヶー一-龯。、・「」])\x20

テキストボックスの要素から文字列を取得するなら、「選択-すべてのテキスト」もしくは「選択-テキストの行」を指定して取得するのがお勧めです。これはコピー/貼り付けアクションをシミュレートし、選択可能なテキスト、ローカルまたはリモートセッションで、そのままのテキストを持ってこれるので、後処理が不要で、かつ確実です。

取得可能なテキストの例

おわりに

読み取りの仕様について、今後、追加情報があれば更新して行きたいと思います。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up