4
5

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

Goutte使おうと思ったらイケてなかった

Last updated at Posted at 2014-10-18

Goutteとは

  • PHPで書かれたWebスクレイピング用のライブラリ
  • 競合でPHPだと、
  • Simple HTML DOM Parser なんかがある

僕のやりたいこと

  • HTMLでしかデータを提供していない掲示板を、スクレイピングして
    データを整形してXML,jsonなんかで出力したい

Goutteは Simple HTML DOM Parser よりはやくてすごい

そろそろ Simple HTML DOM Parser を使うのはやめたほうがいい | localdisk

  • Goutteのほうが速度もメモリ的にも有利みたいなのだが・・?

Goutteは抽出条件に一致するものがないと、例外を投げる

  • 実際使ってみたら$crawler->filter(抽出条件)で抽出する際、
    抽出できるものが何もないと 例外 を投げてしまう・・

  • 配列なんかに抽出したデータを複数格納していく、、なんかをしようとすると、
    抽出条件を指定するたびにExceptionをcatchしないといけなくなり
    コード量がめちゃ増えて非効率すぎる

  • クロージャの書き方なら、抽出できなければ中のコードが実行されないだけで、例外は投げられない。
    とはいえ毎回クロージャ使うと簡単に書けるような部分ばかりでもないので、、やはり不便は不便

  • Simple HTML DOM Parserだとfind(条件)で見つからなくても、
    Nullになるだけなのでemptyやissetで判定できる

4
5
2

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
5

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?