カスタムパッケージのHTTP Parserを使ってみる
通常は、Webサイトのコンテンツ取得はレコーダー機能を使って、
テキストフィールドの値だったり、テーブルデータの一括取得だったりをしますが、
よりプログラミング的にWebサイト内の値の取得をしたい場合もあるかと思います。
そういった場合に使えるのが、HTML Parserパッケージです。
入手方法
Bot Storeからの入手となります。
https://botstore.automationanywhere.com/bot/a2019-html-parser-package/
サンプル
一応、サンプルのタスクボットが付いていましたが。。。あまり親切な形にはなってません。
そして、Readmeファイルもあるのですが、ちょっと分かりづらいです。。。
そのサンプルイメージはこちら。
例えば、最初のステップは、Googleで"Mercedes"を検索したときの戻りhtmlを文字列に入れています。
使ってみる。
まぁ、とにかく使ってみましょう。
今回対象とするのは、オートメーション・エニウェアの日本語ページ。
↓は、トップページから少し下に下がったところなのですが、この「エンタープライズエコシステムのご紹介」という部分を切り出してみます。
まず、最初にやる事なのですが、ページの構造をチェックします。
Chromeで目的のWebサイトを開いて、ファンクションキーのF12を押してください。
↓のような画面になります。
まず、この右側のペインで、Elementタブを指定し、Ctrl + Fを押して検索窓が表示されるようにします。
そこで、取りたい範囲のキーワード。例えば「Enterprise RPA」を入力して検索します。
検索結果はこちら。
この中から、該当部分を指定するのに利用できるタグ(<Div>とかのこと)や、更に細かく指定しているIDやClass(<DIV id=XXXX>とか)を探します。
今回は、少し上の、**<section class="enterprise-ecosystem">**というのが利用できそうだと分かります。
では、Botを組みます。
一つ目のアクションは、「HTML Parser: Get HTML Content」です。
このアクションで対象とするWebサイトのコンテンツ(HTML)を取得し文字列変数に格納します。
二つ目のアクションとしては、「HTML Parser: Simple Search for Elements」を使いました。
最初のパラメータには、一つ目のアクションで取得した文字列。
二つ目のパラメータは、先程確認したenterprise-ecosystemというクラス
三つ目のパラメータは、検索に利用するキーなので、クラスを選択しました。
尚、他にも、IDやTag、Text、Attributeでも検索することが出来るようです。
そして、ディクショナリ変数がリストになっているものが戻ってきていますので、
ここでは、下記の様に、結合した値をメッセージボックスで表示させています。
結果はこんな感じ。上手く取れています。
レコーダーも万能ではありませんので、ユースケースによっては、このようなHTML生データを利用した自動化も有効かと思います。
残りのアクションも一応紹介
正規表現を利用した抽出。
例えば、発注番号とか型番といった、特定パターンにはまる文字列の抽出に使えると思います。