はじめに
備忘録です。
Scrapyとは?
フレームワークのこと。
webスクレイピングやクローリングするときに使われる。
Beautiful Soupとかを使い慣れた次に勉強するといいと思う。
公式ドキュメントによれば次の通り Google翻訳を使用した
Scrapy は、高速で高レベルの Web クロールおよび Web スクレイピング フレームワークであり、Web サイトをクロールし、そのページから構造化データを抽出するために使用されます。データマイニングからモニタリング、自動テストまで幅広い用途に使用できます。
具体的なメリットは?
- 同じような処理を書かなくて済む
- スクレイピングをしていたら同じような処理を何度も書くことがあると思う
- ウェブサイトごとの違いに専念して書くことが出来る
- robots.txtとかを考慮してくれる
- robots.txtとは、スクレイピングされるサイトからのお願い
- これはしてもいいよとかこれはだめだよって書いている
- ほかにもいっぱいあるらしい
- 勉強していきます(__)