概要
定期的にウェブページ上の決まった場所からデータを抜いてきて活用する「データスクレイピング」は、Automation Anywhere の標準機能を使って簡単に実施できます。
前回の、スクレイピング基本の記事では、Automation Anywhere で単純なテーブルからデータを抜き出す方法をご紹介しました。今回の記事では、テーブル以外のパターンベースのオブジェクトからデータを抜き出す方法をご紹介します。
「パターンベースのデータ抽出」とは、画面上で繰り返し表示されるデータを、繰り返しを1セットとして取得する方法です。テーブルを取得する方法よりも汎用的です。複数ページのデータを一度に取り出すことも可能です。
環境
- Automation Anywhere Enterprise 11.3.2
- Automation Anywhere Community Edition
さっそく作ってみよう!
「パターンベースのデータ抽出」の場合、Client を開いて、Web Recorderを指定して記録 (Record) します。
(ワークベンチからコマンドを追加していく方法では作成ができません。必要なコマンド (Extract Multiple Data/Click On) がリストにありません。)
1. Qiitaのトレンドランキングの場合
まず、手近な例としてQiitaトップページのトレンドランキングのリストをスクレイピングしてみましょう。ソースコードを見てみると、一覧のデータはDIV
タグの中の属性として組み込まれているので、前回使った Extract Tableコマンドを使っても、テーブルが認識されません。このような時はExtract (Multiple) Dataコマンドを使います。
1-1. Web Recorder でExtract Data/パターンベースのデータを起動
まずClientの「記録 (Record)」ボタンのドロップダウンで「Web Recorder」を選択した後、「記録 (Record)」ボタンをクリックします。
すると、対象となるページのURLを訪ねるダイアログボックスが起動します。URLにQiitaのトップページのURLを指定して「開始 (Start)」ボタンをクリックします。
以下のようなヒントが表示される場合は、「OK」ボタンをクリックします。
すると、Internet Explorer が起動して対象ページが表示され、右下にツールバーが表示されるので、ページの表示が終わるまでしばらく待ちましょう。その後、ツールバーの「Extract Data」ボタンをクリックします。
その後のダイアログボックスで、「パターンベースのデータ (Pattern based data)」を選択して「次へ (Next)」ボタンをクリックします。
1-2. マウスで繰り返しパターンの1番目2番目を選択
Internet Explorer 上のページ上でマウスカーソルを動かしていくと、直下の HTML 要素が「緑の二重線」で縁取りされハイライトされます。
画面上では以下のように見えます。ここで抜き出したいデータの繰り返しパターンの最初にあたる HTML 要素をマウスでクリックします。まずは記事のタイトルを抜き出したいので、最初の記事のタイトルに当たる部分にマウスを移動し、「緑の二重線」が表示されたらマウスでクリックしましょう。
(注) 「緑の二重線」がうまくいかないときはいったんすべてのInternet Explorer を終了して、右下のツールバーの「記録を停止 (Stop Recording)」ボタンをクリックして保存をキャンセルした後、手順の最初からやり直してください。
ESC
キーを押すと画面選択モードを抜けます。
マウスクリックが認識されると、以下のようなポップアップウィンドウが表示され、クリックした HTML 要素 (コントロール) の詳細情報が表示されます。「タイプ」には HTML タグの種類、値には得られるテキスト情報が表示されます。これでいい場合も、間違ったコントロールを選択してしまった場合でも、とりあえず「キャプチャ (Capture)」ボタンをクリックしましょう。
次に、抜き出したいデータの繰り返しパターンの2番目にあたるHTML 要素をマウスでクリックします。前述のステップで間違ったコントロールを選択してしまった場合は、適当なコントロールをクリックしてください。
2番目にあたる HTML 要素が正しくクリックできていない場合は、以下のエラーが出て、その後、1番目の要素の選択からやり直しになります。
(注) このエラーダイアログは、たまにInternet Explorer のウィンドウの後ろに隠れて表示されるので、もし2番目の要素を指定後、しばらく何も表示されないと思った場合は、裏にダイアログボックスが隠れていないか確認してみてください。
Automation Anywhere で1番目/2番目のクリックから繰り返しパターンが正しく認識できた場合は、以下のダイアログボックスが表示されます。データとして読み込む際の列名を入力し、この HTML 要素の何を読み込むのかを選択します。(テキスト、リンク、画像など複数選択できる場合があります) 「Get Text」の場合は、表示されているテキスト要素が抜き出されます。その後「保存 (Save)」ボタンをクリックします。
すると、以下のような「Extract Multiple Data Wizard」で、指定された1つ目のデータパターンが表示されます。これを必要なデータパターンだけ繰り返します。「追加 (Add)」をクリックすると、他の繰り返しパターンを指定できます。
1-3. ほしいデータ列の数だけ繰り返す
1番目のデータパターンとして記事のタイトルを取得しましたが、他に以下のような合計5つの要素を同様に指定してみましょう。番号のついている順番に、最初の赤枠で囲ってある HTML 要素をクリック、次に対応する青枠の HTML 要素をクリックする、という具合で Extract Multiple Data Wizard に項目を足していきます。
たとえば画像要素を選択した場合は、以下のようにIMG
タグが選択されたことが表示されます。
データパターンを繰り返し指定した結果、5つのパターンの指定が終わると以下の画面となります。その後「次へ (Next)」ボタンをクリックします。
次の画面はそのまま「次へ (Next)」ボタンをクリックします。
1-4. データのプレビュー、データの保存先CSV、イメージ保存先フォルダーの指定
次の画面で「Preview Data」ボタンをクリックして、選択したデータパターンが実際に正しく取り込めるかを見てみましょう。正常に指定されていれば、以下の画面のように表示されます。あとは、データをエクスポートするCSVのパス、イメージを指定している場合は、その保存先フォルダーを指定して「完了」ボタンをクリックします。
その後、画面右下に表示されているツールバーで「記録を停止 (Stop Recording)」ボタンをクリックして Web Recorderを終了します。
タスクを保存するファイル名を求められるので、入力後、「保存 (Save)」ボタンをクリックして完了します。なんとこれでボットの作成が完了です!
1-5. 作成されたアクションリストの確認と実行
作成されたタスクをワークベンチで開いてみると、以下のような2行が作成されています。Extract Multiple Data
コマンドはワークベンチ内からは追加できず、Web Recorderでの記録のみで追加できるコマンドです。
このアクションリストを実行して作成されるCSVを開くと、以下のようにデータが取得されていることがわかります。画像は指定したフォルダーに保存され、CSVには保存が成功したかどうかのステータスが記録されます。
このように、Automation Anywhere はコーディングを全く行わなくても、このようなパターンベースのデータ抽出をダイアログボックス/GUIベースの操作だけで簡単に抜き出すことができるのが、他のRPAツールと比べた時の特徴です。これならVisual Studioを使いこなすプログラマーでなくても、Excelマクロがわかる程度の人であれば簡単に使いこなせそうです。
(注) 上のデータで、「name」の列だけ最後の7行が空欄になっていますが、これは途中で以下の画像のように名前の前に「new」アイコンが表示された行が合計7つあり、データが読み込めずに空欄になったものが上に詰まった結果のようです。データが取れない行がある場合はこのような結果になりますので、このパターンを考慮したうえでのさらなる工夫が必要です。
2. 価格コムの売れ筋ランキングの場合
もうひとつの例として、価格コムの売れ筋ランキングの表からスクレイピングすることを考えてみましょう。価格コムの場合は HTML コードはテーブルですが、通常のテーブルではなく偶数行と奇数行で違うパターンになっています。「パターンベースのデータ抽出」は多少変則的なパターンが含まれていたりする場合でも指定した繰り返しパターンで抜き出したり、データが複数ページにまたがる場合でもページをめくってデータを抜いていくこともできます。
https://kakaku.com/kaden/lcd-tv/itemlist.aspx?pdf_Spec114=2
2-1. Web Recorder でExtract Data/パターンベースのデータを起動
Clientの「記録 (Record)」ボタンからWeb Recorder を起動してExtract Data/パターンベースのデータを起動するところまでは前回と同じですので省略します。
2-2. マウスで繰り返しパターンの1番目2番目を選択/ほしいデータ列の数だけ繰り返す
今回は、番号のついている順番に、最初の赤枠で囲ってある HTML 要素をクリック、次に対応する青枠の HTML 要素をクリックする、という具合で Extract Multiple Data Wizard に項目を合計5つ足していきます。1番目と2番目は同じタイトル要素をクリックし、それぞれGet Text、Get URLで別々のプロパティを取得します。
設定が完了すると、以下のようにキャプチャされます。列名は以下の一覧にあるようにつけてください。問題なく設定されていれば「次へ (Next)」ボタンをクリックします。
2-3. 次のページに行くためのリンクを指定
このページでは、データが複数ページにまたがる(跨る)設定を行います。「このデータは複数ページに跨る」チェックボックスをONにして、ページをめくるコントロールを指定するために「キャプチャ (Capture)」ボタンをクリックします。
Internet Explorer上で、ページをめくるコントロールを指定します。マウスポインタを動かすと「緑の二重線」でハイライトされます。
(注) 「緑の二重線」がうまくいかないときはいったんやり直してください。
クリックして指定が終わると、指定されたコントロールが表示されます。これでOKであれば「次 (Next)」ボタンをクリックします。
2-4. データのプレビュー、データの保存先CSV、イメージ保存先フォルダーの指定
次の画面で「Preview Data」ボタンをクリックして、選択したデータパターンが実際に正しく取り込めるかを見てみましょう。正常に指定されていれば、以下の画面のように表示されます。あとは、データをエクスポートするCSVのパス、イメージを指定している場合は、その保存先フォルダーを指定して「完了」ボタンをクリックします。
その後、画面右下に表示されているツールバーで「記録を停止 (Stop Recording)」ボタンをクリックして Web Recorderを終了します。
タスクを保存するファイル名を求められるので、入力後、「保存 (Save)」ボタンをクリックして完了します。これでボットの作成が完了です!
2-5. 作成されたアクションリストの確認と実行
作成されたタスクをワークベンチで開いてみると、以下のような行が作成されています。前回よりも複雑で、Extract Multiple Data
コマンドのほかに、ページをめくるClick on
コマンドや、ページごとのループが追加されています。
このアクションリストを実行して作成されるCSVを開くと、以下のようにデータが取得されていることがわかります。画像は指定したフォルダーに保存され、CSVには保存が成功したかどうかのステータスが記録されます。データの行数は63行あるので、1ページ当たり40項目だったデータが2ページ目までめくられていることもわかります。
ちなみに、どの画像がCSVのどの行のデータと突合するかは、イメージのURLを取っておくことでわかります。
Automation Anywhere は複数ページにまたがるデータでも、コーディングを全く行わずに簡単に抜き出すことができます。これでさまざまなパターンベースのデータを簡単に再利用できそうです。
最後までお読みいただきありがとうございました。