背景
- ニコニコ大百科の掲示板は一度に30件しか表示できず、ログをまとめて保存する機能もない(よね?)
- 割と頻繁に削除も入るため、過去の情報をトレースしにくい。
目的
- 指定した記事の掲示板をスクレイピングし、1レス目から最新レスまでをまとめて取得・保存する。
詳細
- 記事トップのURLを指定して叩くと全掲示板ログをtxt形式で保存する。ファイル名は「
(記事タイトル).log
」 - 新規の場合は全取得するが、既に一度保存したものの場合、未取得ID以降のみをターゲットとする。
- ファイルの結合や一行抜き出しがpythonだけだとめんどいので、一部Bashに任せている。
ソースはこちらから。
https://github.com/we-yu/sb.webscraping
半自動化
- 都度都度取得しておきたい記事は、以下のようなテキストファイルを用意しておき、usageのコマンドを打つと自動で取得・更新してくれる。
AutoLoadArticleList.txt
# usage
# $ cat AutoLoadArticleList.txt | grep -vF '#' | xargs -I{} python3 nicopedy_saver.py {}
# Python
https://dic.nicovideo.jp/a/python
# Linux
https://dic.nicovideo.jp/a/linux
# PHP
https://dic.nicovideo.jp/a/php
# メルトリリス
https://dic.nicovideo.jp/a/%E3%83%A1%E3%83%AB%E3%83%88%E3%83%AA%E3%83%AA%E3%82%B9