Edited at

Ruby でwebスクレイピング (未完)

More than 1 year has passed since last update.

あるwebサービスから情報を取る必要があったが、400件ほどありスクレイピングのほうが早いと思ったのでrubyでスクレイピングして情報を取ってきてcsvファイルで出力するアプリを作っていく。


mechanizeのインストール

ruby のgemなので

gem install mechanize

ここから実際にプログラムを書いていく。

http://www.rakumachi.jp/info_seminar/

こちらのページをスクレイピングしていきます。

tableにある文字列を取ってきます。

といっても簡単ですね

適当にrbファイルを作って

mechanizeをrequireします。


scraping.rb

require 'mechanize'

agent = Mechanize.new
page = agent.get("http://www.rakumachi.jp/info_seminar/")
elements = page.search('table')
elements.each do |element|
puts element.inner_text
end


Mechanize.newでmechanizeのインスタンスを生成

page = agent.get("url")でurl先のhtml情報を取得しています。

searchメソッドは指定要素を取ってきています。

inner_text でタグの中身だけを取ってきます。

これを実行するとデータが取り出せました!

次はcsvファイルにまとめていきますが...

一旦休憩!

参考 http://qiita.com/shizuma/items/d04facaa732f606f00ff