3
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

スクレイピング色々

Posted at

スクレイピングについて色々調べたので、自分用にまとめます。
環境
OS:CentOS 5.9
HeadLessBrowser:Phantom.js

そもそもスクレイピングって?
https://ja.wikipedia.org/wiki/%E3%82%A6%E3%82%A7%E3%83%96%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0
ウェブスクレイピングはWWWから自動的に情報を収集する処理に他ならない

自動化なので、コマンドでやれればいいんですが、動的に生成される(例えば、ヤフーで今日のニュースと検索してヒットした二つ目のタイトルとか)場合、ブラウザ操作を機械化する必要があります。
ブラウザ操作の自動化の実現方法は、Windowsであればウェブクローラーでよいかもしれませんね。
https://forest.watch.impress.co.jp/library/nav/genre/inet/websupt_webpilot.html
2chまとめのアフィとかはこういうの使ってやってそう

ですが今回はLinux/Windowsで実現したい&CLIでやりたいので、ヘッドレスブラウザを使います。
ヘッドレスブラウザは色々調べたんですが、CentOS 5.xではPhantom.jsしか動かなかった。

3
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?