2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

Automation Anywhere パターンベースのスクレイピングで1ページ目しかデータが取れないときのデバッグのヒント

Posted at

Automation Anywhere のパターンベースのデータ抽出による複数ページのスクレイピング手法でボットを実行したときに、エラーが出ずに正常終了したとしても、エクスポートしたCSVの中身を見ると正常にデータが取れていないときがあります。多いパターンとしては、最初の1ページ目しかデータが取れない場合です。

このような場合に何を試すべきかのメモです。

デバッグ方法

Web Recorderでパターンベースのデータ抽出を記録すると、典型的には以下のようなアクションリストが作成されます。
aa-web-scraping-advanced31.png

作成されたアクションリストを実行すると、Internet Explorerが起動して、どんどんページがめくられていきます。ページ数がとても多い場合は最後まで実行されるのを待つととても時間がかかる場合がありますので、そのような場合は、最初の数ページの処理が完了した段階で、右下のランタイムウィンドウ上にある「中断 (Pause)」ボタンをクリックして一旦停止させて、エクスポート先のCSVファイルの中身を見てみましょう。
aa-bot-runtime-window.PNG

CSVファイルは各ループ毎に内容がファイル上にコミットされ、正常に処理が進んでいれば、処理が終わったページまでのデータがCSVファイルに書き込まれているはずです。

【症状1】Internet Explorer でいつまでたってもページがめくられない

このケースでは、次のページに行くときに押されるボタンが正しく選択されていないケースが多いです。アクションリストの5行目のClick on...コマンドを選択して編集ボタンをクリックします。すると、以下のようなダイアログボックスが表示されます。
aa-web-recorder-clickon01.PNG

このダイアログボックスの右下の「Advanced View」ボタンをクリックして詳細を表示します。Step 4のコントロールの検索方法を確認して、条件を変更してみましょう。
aa-web-recorder-clickon02.PNG

Control Name、Control ID、Caption、Control Index、Attributesなどいくつかのプロパティでキャプチャされている情報があるので、別のプロパティにチェックを変えてみたり、情報の内容を編集してアップデートしてみたりして試してみてください。

【症状2】ページはめくられているが1ページ目のデータしか取れない

実行時に、Internet Explorer 上では順調にページがめくられているのに、CSVの中身をチェックすると1ページ目のデータしか書き込まれていない場合があります。サイトのページ構造によりますが、1ページ目と2ページ目以降でページの構造が異なる場合があり、その場合は2ページ目からスクレイピングを開始するとうまくいく場合があります。

このような場合は、1ページ目は別途スクレイピングを行い、2ページ目以降のデータと後で統合するなどの工夫が必要になります。

2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?