LoginSignup
2
1

More than 5 years have passed since last update.

Pythonによるスクレイピングでニコニコ大百科掲示板を保存してみる

Last updated at Posted at 2019-02-24

背景

  • ニコニコ大百科の掲示板は一度に30件しか表示できず、ログをまとめて保存する機能もない(よね?)
  • 割と頻繁に削除も入るため、過去の情報をトレースしにくい。

目的

  • 指定した記事の掲示板をスクレイピングし、1レス目から最新レスまでをまとめて取得・保存する。

詳細

  • 記事トップのURLを指定して叩くと全掲示板ログをtxt形式で保存する。ファイル名は「(記事タイトル).log
  • 新規の場合は全取得するが、既に一度保存したものの場合、未取得ID以降のみをターゲットとする。
  • ファイルの結合や一行抜き出しがpythonだけだとめんどいので、一部Bashに任せている。

ソースはこちらから。
https://github.com/we-yu/sb.webscraping

半自動化

  • 都度都度取得しておきたい記事は、以下のようなテキストファイルを用意しておき、usageのコマンドを打つと自動で取得・更新してくれる。
AutoLoadArticleList.txt
# usage
# $ cat AutoLoadArticleList.txt  | grep -vF '#' | xargs -I{} python3 nicopedy_saver.py {}
# Python
https://dic.nicovideo.jp/a/python
# Linux
https://dic.nicovideo.jp/a/linux
# PHP
https://dic.nicovideo.jp/a/php
# メルトリリス
https://dic.nicovideo.jp/a/%E3%83%A1%E3%83%AB%E3%83%88%E3%83%AA%E3%83%AA%E3%82%B9
2
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
1