LoginSignup
0
1

クローリングとスクレイピング

Posted at

クローリング

初めにクローリングについて記載する。

クローリングとは

クローリングとは、クローラーというプログラムがリンクをめぐってWebサイトを巡回し、Webページにある情報を複製・保存すること。
Web上からデータを収集する手段の1つ

メリット
  • 大量のデータを収集できる
    ビッグデータ解析をはじめとするデータサイエンス業務などに活かせる
    ビジネス展開や、研究機関での資料としても利用できる

  • 業務効率の向上
    システムを開発すれば自動でデータ収集を行える
    より正確なデータの傾向を調べることができる

注意点
  • 著作権に触れる可能性がある
  • Webサイトへの負荷がかかる

スクレイピング

続いてスクレイピングについて記載する。

スクレイピングとは

取得したデータの解析方法の1つ。
クローリングと併用することでWeb上から特定データの抽出が行える。

メリット
  • データ活用の効率アップ
    自動化を行うことで、データ収集効率を高め、工数を減らすことができる

  • Web上からの特定データの抽出
    取得したデータのうち必要なデータを抽出することで、不要な情報を除外できる。

注意点
  • 収集したデータをそのまま公開や複製すると著作権違反になる可能性がある
  • Webサイトへの負荷がかかる
  • スクレイピング禁止サイトがある

クローリングとスクレイピングの併用手順

クローリングとスクレイピングを使用したデータ抽出手順として以下のような流れを行う必要がある。

  1. クローリングを使用してURLからデータを取得
  2. スクレイピングを使用して取得したデータを解析
  3. 必要なデータを抽出
  4. ファイルもしくは、標準出力にて出力

簡単ではあるが大まかな流れとしてはこのようになる。

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1