0
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

Python・スクレイピング:再実行を意識したクローラーってどう作るの?概要について

Last updated at Posted at 2023-01-29

はじめに

備忘録です

本文

  • 再実行を意識したクローラーの作成
    • 一意のKeyを持たせること
    • クローラーを実行したら更新する
    • 新しいデータは追加する
    • パーマリンクがカギになる
  • パーマリンク
    • URLが変わらない。
    • WEBサイトごとに仕様が違うので、どういう風になっているのか観察しよう!
  • 作り方
    • 一覧ページからパーマリンクを抜き出す
    • 詳細ページをスクレイピングする
    • RequestsのSessionオブジェクトは便利
    • データを保存する
  • 途中途中でするといいこと
    • developerツールを使って、どんな風にWEBサイトが作られているか観察する
      • これが、どうやって情報を抜き出したらいいかという問いの答えにつながる

memo

参考文献

加藤耕太さん「Python クローリング&スクレイピング」
#######

0
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?