More than 3 years have passed since last update.

Python・スクレイピング：再実行を意識したクローラーってどう作るの？概要について

Last updated at 2023-01-29Posted at 2023-01-29

はじめに

備忘録です

再実行を意識したクローラーの作成
- 一意のKeyを持たせること
- クローラーを実行したら更新する
- 新しいデータは追加する
- パーマリンクがカギになる
パーマリンク
- URLが変わらない。
- WEBサイトごとに仕様が違うので、どういう風になっているのか観察しよう！
作り方
- 一覧ページからパーマリンクを抜き出す
- 詳細ページをスクレイピングする
- RequestsのSessionオブジェクトは便利
- データを保存する
途中途中でするといいこと
- developerツールを使って、どんな風にWEBサイトが作られているか観察する
  - これが、どうやって情報を抜き出したらいいかという問いの答えにつながる

加藤耕太さん「Python　クローリング＆スクレイピング」
#######