LoginSignup
2
0

More than 5 years have passed since last update.

スクレイピングの学習 Python3系 その5

Posted at

前回の内容

スクレイピングの学習 Python3系 その4

改善点

  • 重複している記事を取得しないようにする (参考URL)

手順

  • データフレームの中から記事名が重複している行を削除

追加したコード

df.drop_duplicates(subset='name', inplace=True)

補足

subsetは列名、inplaceは元のデータ保持。指定しないと元のデータフレームが保持されてしまうみたい。仕様要確認。
inplace=Trueはクォーテーションで囲むとエラーになる

次回への課題

  • CSVでダウンロード
  • 1時間に1回取得などの動き
  • 重複する内容を取得しないようにする
  • 次ページ以降の取得
  • 元リンクを取得
  • ローカル環境で動かす
2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0