はじめに
この記事の執筆は以下の環境で行っています。
UiPathStudio 2021.6.0-beta.4514 (Community License)
UiPath.System.Activities 21.6.1 Preview
言語:日本語
この記事は
この記事は「UiPathFriends」が企画する「UiPathブログ発信チャレンジ2021サマー」の17日目の記事になります。
私の初投稿は昨年の同イベントでした。今年はこの投稿をバネにアウトプットを増やしていきたいと思います。
企画の詳細は コチラ です。
なにをするの?
UiPathに2019.2から実装されている正規表現ビルダーを使用して、文字列の抽出を行い、
正規表現の簡単な扱い方と、ビルダーの使い方をそれぞれを紹介します。
正規表現とは
そもそも正規表現とは何なのか。
UiPathで開発を行う中で、特定の文章から決められた文言の部分のみを抽出するといった処理が必要になった事はないでしょうか。
あるいは、セレクターを曖昧化したり、特定のパターンを持つ名前のファイルだけを処理したいシーンなどでワイルドカードを使う機会があると思いますが、対象の文字列が複雑になってきてワイルドカードだけでは対処しきれない文字列に遭遇した事はないでしょうか。
そんな時に、決められた記法に則って指定することで、複雑な文字列を抽出して処理を行えるものが正規表現となります。
正規表現自体はUiPath独自の機能ではなく、様々なプログラミング言語で使用することができます。
UiPathで使用する際は.NETで定義されたものが使われますので、より厳密に知りたい方はMicrosoftの公式ドキュメントなどを参照してください。
UiPathで正規表現を使うには
UiPathで正規表現を扱うには、対応したアクティビティを使用するのが一番かんたんです。
今回は、上記の中から「一致する文字列を取得(Matches)」を使用して、以下の文章から電話番号の部分だけを抜き取る処理を作ってみたいと思います。
この文章には携帯番号
Tel:000-1234-5678
が含まれています
###正規表現ビルダーの使い方
アクティビティに付いている「正規表現を設定」のボタンをクリックします。
すると「正規表現ビルダー」が立ち上がります。
このビルダーが非常に便利であり、正規表現の記法に詳しくなくとも、項目を選択していくだけで評価に使う式を作成することができます。
まずは、上部のテスト用テキストの部分に文字列の抽出を行いたい文章を入力します。
次に、抽出の条件を設定していきます。
抽出の条件を考えるには、電話番号がどんな文字の塊になっているかを考える必要があります。
000-1234-5678
は 数字
と-(ハイフン)
の組み合わせであることがわかります。
さらに組み合わせの内容を考えると 3桁の数字
、-
、4桁の数字
、-
、4桁の数字
という5つの要素に分解できます。
この分解した内容を正規表現ビルダーの中で表現していきます。
左側のプルダウンでは「何で構成されている」かを選択します。
右側のプルダウンでは「どういう状態」かを選択します。
今回は3桁の数字
を表現するために左側は数字を選択し、右側は指定回数を選択して「3」と入力します。
入力が完了すると、テスト用テキストの部分で今現在、設定した内容で一致する部分の文字列がハイライトされます。
正規表現ビルダー上での条件の指定は、右側の「+」ボタンを押すことで複数設定することができます。
上記の要領で、のこり4つの要素を設定すると、以下のようになります。
電話番号全体がハイライトされているのが分かります。
また、下部の完全式の部分に正規表現のパターン式が自動的に組み上げられました。
「保存」ボタンをクリックすることで、プロパティの「パターン」に組み上げられた式が入力されていることが確認できます。
それでは、残りの部分を設定して、本当に電話番号の部分が抽出できるか確かめてみましょう。
入力ダイアログで文章を入力し、一致した部分をメッセージボックスで表示してみます。
動作させるワークフローと使用する変数は下記の通りです。
実行してみると、確かにメッセージボックスに携帯番号の部分だけが抽出されているのが確認できました。
「一致する文字列を取得(Matches)」を使う際の注意
さて、ここまで読んで「一致する文字列を取得(Matches)」の結果に設定した変数を見て顔をしかめた方、いらっしゃらないでしょうか。
私は初めて使った時に顔をしかめました。
実は「一致する文字列を取得(Matches)」というアクティビティは英語名が複数形である通り、条件に一致した文字列が複数ある場合、そのすべてを取得します。
入力を以下の文章に変えて実行してみます。
この文章には携帯番号が2つ含まれています
Tel:000-1234-5678
Tel:111-1234-5678
さて、結果はどうなるでしょうか。
右側がローカルパネルで表示した取得後の様子です。
指定した条件に一致している番号の部分が2つ格納されていることがわかります。
このように、入力の文章によっては取得結果が複数になることを踏まえて使うことが必要になります。
IEnumerable<Match>
はそのまま「繰り返し (コレクションの各要素)(For Each)」の入力に使用することができる(取り出した値の型はSystem.Text.RegularExpressions.Match
となる)ので、後続で使用する際には何らかの判定ロジックを組み込むと良いと思います。
繰り返しアクティビティを使用して「一致する文字列を取得(Matches)」の取得結果を扱う方法についてはUiPathFriendsメンバーのごじゃむーさんが「UiPath 正規表現ビルダーを使って情報を抽出する方法」という記事でまとめてくれています。
その他の要素
「UiPath開発者向け正規表現習得のすすめ」という素敵な記事をUiPath Japan MVPの末武さんが書かれています。
本記事では触れられなかった「セレクター内で正規表現を使う方法」なども紹介されていますので、UiPathで正規表現をもっと使いこなしたいと思った方はぜひ読んでみてください。
さいごに
正規表現はUiPathを使って開発を行う中で、ぶつかる壁シリーズの中でもかなり大きな物だと思います。
しかし、正規表現ビルダーの登場でかなり扱いやすくなっていますので、今まで正規表現を敬遠していた方も、ぜひチャレンジしてみてください。
正規表現ビルダーについての詳細は公式のドキュメントにも載っています。
この記事を通して、少しでも多くの方の正規表現を使用するハードルを下げられたならば、幸いです。