この記事は前回の『【🔥UiPath vs Automation Anywhere🔥】同一書式の複数Webページから情報を抜き出す (1) - UiPathの場合』からの続きです。繰り返しパターンからリンクされている各詳細ページの情報を取得していく場合を考えています。たとえば、一覧からリンクされているプロファイル情報、商品の詳細ページ、レシピの詳細ページ、などです。
今回の想定は上の図のような場合です。
用意されているデータと取り組み方針
前回の記事を参照してください。
詳細ページの1つで得たい情報の部分をスクレイピングして、変数とループを使ってその他の同じレイアウトの一覧ページからも同じ部分をスクレイピングします。
UiPathの場合
利用環境: UiPath Studio 2020.4.0-beta.472
前回の記事を参照してください。
Automation Anywhereの場合
利用環境: Automation Anywhere Enterprise 11.3.3.1 (Build 19100531)
この記事では、Automation Anywhere (AA)で実装した場合のやり方について取り上げます(^^♪
注: AAではWebページのスクレイピングはObject CloningとWeb Recorderの2通りの方法があります。Webページの操作においてはWeb Recorderの方が一般的に操作性がよくスピードも速いのですが、 URL/IEのウィンドウ設定の部分が変数が挿入できずページの一般化ができないため、Object Cloningを使うことになります。
詳細ページ上で必要な要素を変数に取得する
- 新規ワークベンチを作成、最初のURL
https://kakaku.com/item/K0001219355/
をInternet Explorerで開いておきます。また変数を3つ作っておきます。(variable1
、variable2
、variable3
) - Object Cloningコマンドをワークベンチにドラッグ&ドロップします。開くダイアログボックスでInternet Explorerのウィンドウを指定して、キャプチャボタンを押して、Webページの以下の部分をキャプチャします。
キャプチャした結果は以下のようになります。実行するアクションに「Get Property」を指定し、「HTML Inner」を取得、variable1
に格納します。
- 同様に、もうひとつObject Cloningコマンドをワークベンチにドラッグ&ドロップします。開くダイアログボックスでInternet Explorerのウィンドウを指定して、キャプチャボタンを押して、Webページの以下の部分をキャプチャします。
キャプチャした結果は以下のようになります。実行するアクションに「Get Property」を指定し、「HTML Inner」を取得、variable2
に格納します。
- 同様に、もうひとつObject Cloningコマンドをワークベンチにドラッグ&ドロップします。開くダイアログボックスでInternet Explorerのウィンドウを指定して、キャプチャボタンを押して、Webページの以下の部分をキャプチャします。
キャプチャした結果は以下のようになります。実行するアクションに「Get Property」を指定し、「HTML HRef」を取得、variable3
に格納します。
これでObject Cloningコマンドが3つ並びました。ちなみに、Object Cloningコマンドを使うときは「Object Cloningイメージ」ウィンドウが自動的に表示され、選択しているコマンドでキャプチャしているUI要素を表示してくれるのですが、キャプチャしたコントロールそのもののみしか表示してくれないのと、ウィンドウの縦横比がいつも決まっているため、だいたい縦に間延びした画像となってしまい、ちょっと醜いですね( ;∀;)
注: Object Cloningの「キャプチャ」ボタンを押してマウスカーソルをキャプチャしたいコントロールの上に載せようとすると、マウスカーソルが点滅したりいきなり位置が変わったりすることがあるので、正しいコントロールがキャプチャできるまで何回か根気よく試す必要があります。ちなみに、キャプチャする場合は、キャプチャしたいコントロールをクリックするのではなく、マウスカーソルを移動させて数秒間待つ、という動作となります。
尚、アクションリストの最後にMessage Boxコマンドを追加してvariable1
、variable2
、variable3
の内容を表示するようにしておきます。
アクションリストを保存して実行するとコントロールのテキストがきちんと取得できていることがわかります。
処理する詳細ページを一般化する
最初の詳細ページでは必要な情報を取得する仕組みができたので、他の詳細ページでも同じ情報が取得できるようにアクションリストを一般化します。
- まず、新たに変数として
URL
とTitle
を追加します。既定値には最初の詳細ページのURLとWebページのタイトルを入れておきます。
- 次に、「Web Browser」-「Open Browser」コマンドをアクションリストの先頭に追加、URLプロパティには変数
$URL$
を入れておきます。
- 3つのObject Cloningコマンドのダイアログボックスを開いて、ウィンドウ選択のテキストボックスに変数
$Title$
を入力します。「保存」ボタンを押した後に、右下のような「List of Window」というダイアログボックスが出てきて、「そんなウィンドウタイトルないけどこの中のどれかの間違えじゃない?」と聞いてくるので、「None of the Above」ボタンを押すと、おとなしく入力されます。
- これで、以下のような一般化されたアクションリストが出来上がりました!
アクションリストを保存して実行するとコントロールのテキストがきちんと取得できていることがわかります。
さらにプロパティを編集して正しいコントロールを選択できるようにする
さて、ここからはちょっと難しいですが、他の詳細ページでもObject Cloningが働くように、AAのObject Cloningの仕様 (特にXPathの仕様も) を見ながら、プロパティの内容を最適化します。ちょっと厄介なのは、今回の場合、詳細ページの構造がページごとに微妙に異なることです。いくつかページのHTMLソースを見て、共通なルールを見極め、それをもとにDOMXPathに指定していく必要があります。
まず、抜き出したい要素の近くのHTMLソースを見てみます。
<div id="priceBox" class="priceBoxWrap">
<div class="priceWrap">
<span class="newBrand">最安価格(税込):</span>
<div class="subInfoObj1">
<p>
<span class="priceTxt">¥52,830</span>
</p>
<div class="offer">
<span class="priceRate">(前週比:<span class="priceNovary">±0 </span><img width="12" height="12" src="https://img1.kakaku.k-img.com/images/itemview/item/icon_help2.gif" alt="" onclick="balloonOver()">)
<span style="display:none" id="balloonMini">
<span class="balloonMiniMain">7日前の最安価格との対比<a href="javascript:void(0)" onClick="balloonOut();return false;" title="閉じる"><img width="15" height="15" src="https://img1.kakaku.k-img.com/images/itemview/item/itemv_balloon_close.gif"></a>
</span>
</span>
</span>
<span class="priceRateG"><span class="priceRateLink"><a target="_blank" href="https://kakaku.com/item/K0001219355/pricehistory/">価格推移グラフ</a></span></span>
</div>
...
<div class="subInfoObj4">
<span>価格帯:<span itemprop="lowPrice">¥52,830</span>~<span itemprop="highPrice">¥52,830</span> (<a href="https://kakaku.com/item/K0001219355/#tab"><span itemprop="offerCount">1</span>店舗</a>)</span>
<span>メーカー希望小売価格:¥―</span>
</div>
1番目のObject Cloningコマンドでは、以下の部分を変更します。
- オブジェクト終了までの待機時間を15秒から2秒に変更。
- Path を検索対象から外す (Pathの左側にある「双眼鏡」アイコンをダブルクリックして非表示にする) - DOMXPathと被っているので
- DOMXPathを以下のとおり変更します
//div[@id='priceBox']/div[1]/div[1]/div[1]/span[1]/span[1]
//div[@id='priceBox']/div[1]/div[1]/div[1]/span[1]
2番目のObject Cloningコマンドでは、以下の部分を変更します。
- オブジェクト終了までの待機時間を15秒から2秒に変更。
- Path を検索対象から外す (Pathの左側にある「双眼鏡」アイコンをダブルクリックして非表示にする) - DOMXPathと被っているので
- DOMXPathを以下のとおり変更します
//div[@id='priceBox']/div[2]/span[1]/span[1]
//div[@class='subInfoObj4']/span[1]
3番目のObject Cloningコマンドでは、以下の部分を変更します。
- オブジェクト終了までの待機時間を15秒から2秒に変更。
- HTML Inner Text、HTML HRef、Path を検索対象から外す (各項目の左側にある「双眼鏡」アイコンをダブルクリックして非表示にする)
Excelファイルの内容を読み込んでWebページタイトルとURLでループして詳細ページを切り替える仕組みを作る
全詳細ページについての情報が入っているd:\kakakucom.xlsx
を読み込んで、詳細ページの数だけループを回してみましょう(^^)/
- 「Excel」-「Open Spreadsheet」コマンドをアクションリストの先頭に挿入します。読み込むファイルには
d:\kakakucom.xlsx
を指定して、ヘッダーを含めます。
- 「Excel」-「Get Cells」コマンドを次に挿入し、全セルを取得をしています。
- 「LOOP」-「Each Row In An Excel Sheet」コマンドを次に挿入します。
これで、先頭に以下のアクションリストが完成します。
- 6-10行目を選択して、4行目のコメントの部分にドラッグ&ドロップして、アクションをループの中に取り込みます。
- 続いて、4行目の部分に、Variable Operationコマンドをドラッグ&ドロップします。最初は
URL
にExcelシートの3列目$Excel Column(3)$
を代入します。
- もう一度4行目の部分に、次は、VB.NETで書くと以下のようなロジックを
Title
に代入します。(タイトル文字列はUiPathと比べると " - Internet Explorer"という文字列が最後に必要です。)
Title="価格.com - " + iif(Left(Excel Column(2),Len(Excel Column(1)))=Excel Column(1),"",Excel Column(1)+" ")+Excel Column(2)+" 価格比較 - Internet Explorer"
このような複雑な文字列オペレーションの場合、AAではVariable Operation / String Operationや条件分岐等を複数回使用する必要があります。ロジックをくみ上げて、いままでのアクションリストを整理すると、以下のものが完成します。(赤枠内が上の式のロジック部分に相当します(^^♪)
CSVファイルへの結果の書き込みを行う
詳細ページから得られた情報variable1
、variable2
、variable3
ですが、Excelの表に列を3つ追加して格納したうえでd:\kakakucom_output.csv
にCSVファイルとして書き込むことにします。これは文字列をファイルにテキストとして出力する「Log To File」コマンドを2か所に挿入することで対応します。まず、ループに入る前にヘッダーを書き込みます。(「ログファイルに加える」はOFFにして既存データがあれば破棄します。)
後はループの最後で、各変数をCSV形式で書き込みます。(「ログファイルに加える」はONにして既存データに追加します。)
これを加えたアクションリストは以下のようになります。(赤枠内が追加した部分)
ページによっては要素が存在しない場合のエラー処理を加える
1ページ目、2ページ目とブラウザーが開いて実行されていきますが、今回の場合、2ページ目の途中で以下のエラーで止まってしまいます。
これは2ページ目には「価格帯」の情報がないためです。このように、Object Cloningコマンドは、要素がないときにエラーが出てしまいますので、3つとも、Error Handlingコマンドで囲いましょう(^_-)-☆ (完成リストの18-29行目)
ここで、Error Handlingコマンドの囲いは、エラーが起こると思われるコマンド毎に、別々に囲ってください。エラーが発生した場合のアクションについて、既定ではContinueとなっていますが、Error Handlingコマンドの囲いの中に複数のコマンドが含まれる場合、エラーが起こった行でError Handlingの囲いを離脱してしまう仕様になっているからです。つまり、エラーが起こった場合、囲われている後ろの方のコマンドは実行されなくなってしまいます( ;∀;)
(公式製品ドキュメントではエラー時の動作は触れられていませんが、実際に実行してみるとそうなります)
また、variable1
、variable2
、variable3
を初期化するコマンドを直前に入れておきます。(完成リストの15-17行目)
完成!
これですべて完成です。また、デバッグのために入れていたMessage Boxコマンドは無効または削除しておきましょう。
アクションリストは以下の通りになります。
保存して実行すると、d:\kakakucom_output.csv
に以下のようなCSVファイルができています。
サンプルファイルscraping2.atmxをGitHubからダウンロード
まとめ
これで、UiPathとAAでの実装の両方についてみてきました!それぞれ実装時のクセや得意、不得意分野があるのがお判りいただけたかと思います。どちらがいいということはありませんが、両方ともいろいろできるRPAなので、うまく使いこなすのが吉です♪