クローリング
初めにクローリングについて記載する。
クローリングとは
クローリングとは、クローラーというプログラムがリンクをめぐってWebサイトを巡回し、Webページにある情報を複製・保存すること。
Web上からデータを収集する手段の1つ
メリット
-
大量のデータを収集できる
ビッグデータ解析をはじめとするデータサイエンス業務などに活かせる
ビジネス展開や、研究機関での資料としても利用できる -
業務効率の向上
システムを開発すれば自動でデータ収集を行える
より正確なデータの傾向を調べることができる
注意点
- 著作権に触れる可能性がある
- Webサイトへの負荷がかかる
スクレイピング
続いてスクレイピングについて記載する。
スクレイピングとは
取得したデータの解析方法の1つ。
クローリングと併用することでWeb上から特定データの抽出が行える。
メリット
-
データ活用の効率アップ
自動化を行うことで、データ収集効率を高め、工数を減らすことができる -
Web上からの特定データの抽出
取得したデータのうち必要なデータを抽出することで、不要な情報を除外できる。
注意点
- 収集したデータをそのまま公開や複製すると著作権違反になる可能性がある
- Webサイトへの負荷がかかる
- スクレイピング禁止サイトがある
クローリングとスクレイピングの併用手順
クローリングとスクレイピングを使用したデータ抽出手順として以下のような流れを行う必要がある。
- クローリングを使用してURLからデータを取得
- スクレイピングを使用して取得したデータを解析
- 必要なデータを抽出
- ファイルもしくは、標準出力にて出力
簡単ではあるが大まかな流れとしてはこのようになる。