はじめに
備忘録です
本文
- 再実行を意識したクローラーの作成
- 一意のKeyを持たせること
- クローラーを実行したら更新する
- 新しいデータは追加する
- パーマリンクがカギになる
- パーマリンク
- URLが変わらない。
- WEBサイトごとに仕様が違うので、どういう風になっているのか観察しよう!
- 作り方
- 一覧ページからパーマリンクを抜き出す
- 詳細ページをスクレイピングする
- RequestsのSessionオブジェクトは便利
- データを保存する
- 途中途中でするといいこと
- developerツールを使って、どんな風にWEBサイトが作られているか観察する
- これが、どうやって情報を抜き出したらいいかという問いの答えにつながる
- developerツールを使って、どんな風にWEBサイトが作られているか観察する
memo
参考文献
加藤耕太さん「Python クローリング&スクレイピング」
#######