スクレイピングについて色々調べたので、自分用にまとめます。
環境
OS:CentOS 5.9
HeadLessBrowser:Phantom.js
そもそもスクレイピングって?
https://ja.wikipedia.org/wiki/%E3%82%A6%E3%82%A7%E3%83%96%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0
ウェブスクレイピングはWWWから自動的に情報を収集する処理に他ならない
自動化なので、コマンドでやれればいいんですが、動的に生成される(例えば、ヤフーで今日のニュースと検索してヒットした二つ目のタイトルとか)場合、ブラウザ操作を機械化する必要があります。
ブラウザ操作の自動化の実現方法は、Windowsであればウェブクローラーでよいかもしれませんね。
https://forest.watch.impress.co.jp/library/nav/genre/inet/websupt_webpilot.html
2chまとめのアフィとかはこういうの使ってやってそう
ですが今回はLinux/Windowsで実現したい&CLIでやりたいので、ヘッドレスブラウザを使います。
ヘッドレスブラウザは色々調べたんですが、CentOS 5.xではPhantom.jsしか動かなかった。
-
PhantomJS(http://phantomjs.org/)
-
NightmareJS
-
CasperJS