0

More than 5 years have passed since last update.

スクレイピングの学習 Python3系その5

2

Posted at 2018-09-27

前回の内容

スクレイピングの学習 Python3系その4

改善点

重複している記事を取得しないようにする
(参考URL)

手順

データフレームの中から記事名が重複している行を削除

追加したコード

df.drop_duplicates(subset='name', inplace=True)

補足

subsetは列名、inplaceは元のデータ保持。指定しないと元のデータフレームが保持されてしまうみたい。仕様要確認。
inplace=Trueはクォーテーションで囲むとエラーになる

次回への課題

~~CSVでダウンロード~~
1時間に1回取得などの動き
~~重複する内容を取得しないようにする~~
~~次ページ以降の取得~~
元リンクを取得
~~ローカル環境で動かす~~

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0