Automation Anywhere のパターンベースのデータ抽出による複数ページのスクレイピング手法でボットを実行したときに、エラーが出ずに正常終了したとしても、エクスポートしたCSVの中身を見ると正常にデータが取れていないときがあります。多いパターンとしては、最初の1ページ目しかデータが取れない場合です。
このような場合に何を試すべきかのメモです。
デバッグ方法
Web Recorderでパターンベースのデータ抽出を記録すると、典型的には以下のようなアクションリストが作成されます。
作成されたアクションリストを実行すると、Internet Explorerが起動して、どんどんページがめくられていきます。ページ数がとても多い場合は最後まで実行されるのを待つととても時間がかかる場合がありますので、そのような場合は、最初の数ページの処理が完了した段階で、右下のランタイムウィンドウ上にある「中断 (Pause)」ボタンをクリックして一旦停止させて、エクスポート先のCSVファイルの中身を見てみましょう。
CSVファイルは各ループ毎に内容がファイル上にコミットされ、正常に処理が進んでいれば、処理が終わったページまでのデータがCSVファイルに書き込まれているはずです。
【症状1】Internet Explorer でいつまでたってもページがめくられない
このケースでは、次のページに行くときに押されるボタンが正しく選択されていないケースが多いです。アクションリストの5行目のClick on...
コマンドを選択して編集ボタンをクリックします。すると、以下のようなダイアログボックスが表示されます。
このダイアログボックスの右下の「Advanced View」ボタンをクリックして詳細を表示します。Step 4のコントロールの検索方法を確認して、条件を変更してみましょう。
Control Name、Control ID、Caption、Control Index、Attributesなどいくつかのプロパティでキャプチャされている情報があるので、別のプロパティにチェックを変えてみたり、情報の内容を編集してアップデートしてみたりして試してみてください。
【症状2】ページはめくられているが1ページ目のデータしか取れない
実行時に、Internet Explorer 上では順調にページがめくられているのに、CSVの中身をチェックすると1ページ目のデータしか書き込まれていない場合があります。サイトのページ構造によりますが、1ページ目と2ページ目以降でページの構造が異なる場合があり、その場合は2ページ目からスクレイピングを開始するとうまくいく場合があります。
このような場合は、1ページ目は別途スクレイピングを行い、2ページ目以降のデータと後で統合するなどの工夫が必要になります。