前回の内容
改善点
- 重複している記事を取得しないようにする (参考URL)
手順
- データフレームの中から記事名が重複している行を削除
追加したコード
df.drop_duplicates(subset='name', inplace=True)
補足
subset
は列名、inplace
は元のデータ保持。指定しないと元のデータフレームが保持されてしまうみたい。仕様要確認。
inplace=True
はクォーテーションで囲むとエラーになる
次回への課題
CSVでダウンロード- 1時間に1回取得などの動き
重複する内容を取得しないようにする次ページ以降の取得- 元リンクを取得
ローカル環境で動かす