7
1

More than 1 year has passed since last update.

【UiPath】Computer VisionでCJK OCR(中日韓)を使い画面表示文字を取得する

Last updated at Posted at 2023-02-27

はじめに

Computer Visionで新しい日本語対応のOCR「CJK OCR(中日韓)」が利用可能になり、色々と試して見たので備忘録として残していきます。
尚、CJK OCR(中日韓)のエンドポイントはUiPath Document Understandingですので、UiPath Document Understandingも同じ仕様です。
結論から言うとUiPathで標準搭載していたOCRの中では、高い精度で日本語の文字を読取ります。UiPath Document Understandingの日本語精度が飛躍的に良くなったと言うのは、これですね。

CV画面スコープの設定

CV画面スコープの設定は下記のブログを参考にしてください。

Computer Visionで画面からテキストを取得

参考にですがUiPath Demoサイトの経費照会画面で登録した項目を読み取ってみた結果です。
Computer Visionで指定した要素にある1つ1つの文字は正しく読み取れてそうですね。

image.png

image.png

仕様を考察

ここから備忘録です。
CJK OCR(中日韓)の読取りの仕様が公開されていないので、実際に使って見て蓄積するしかなさそうです。
まだ、これ以外にあると思うので、参考として見てください。

漢字、ひらがな、カタカナと
。、・「」
の文字を便宜上、CJK文字として表現します。

読取り対象 読取り後
英数字(半角)
英数字(全角) 全て半角に変換される。変換された数字の間には半角スペースが入る。
CJK文字 文字の間に半角スペースが入る。
カタカナ(半角) カタカナ(全角)に変換される。文字の間に半角スペースが入る。
英数字(半角)の直後にCJK文字 半角スペースが入る。
CJK文字の直後に英数字(半角) 半角スペースが入る。
CJK文字の間に連続したスペースを入れる 半角スペース1つに変換される。
英数字(半角)の間に連続したスペースを入れる 半角スペース1つに変換される。

後処理のサンプル

取得したテキストを、どう使うかにもよりますが、一部、例で記載しようと思います。

  1. CJK文字間、英数字(半角)直後にCJK文字、CJK文字直後に英数字(半角)の半角スペースを削除(置換)する正規表現

image.png

\x20(?=[ぁ-んァ-ヶー一-龯。、・「」])|(?<=[ぁ-んァ-ヶー一-龯。、・「」])\x20

テキストボックスの要素から文字列を取得するなら、「選択-すべてのテキスト」もしくは「選択-テキストの行」を指定して取得するのがお勧めです。これはコピー/貼り付けアクションをシミュレートし、選択可能なテキスト、ローカルまたはリモートセッションで、そのままのテキストを持ってこれるので、後処理が不要で、かつ確実です。
image.png

取得可能なテキストの例

image.png

image.png

おわりに

読み取りの仕様について、今後、追加情報があれば更新して行きたいと思います。

7
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
7
1