6
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

【第2回】Ruby + Seleniumを使ってスクレイピングしてみる

Last updated at Posted at 2019-10-28

##@cosmeの商品レビューをスクレイピングしてみる
第1回の前置きが長くなってしまいましたが、今回からコーディングしていきたいと思います。

###想定仕様
1.プロダクトIDが入ったURLを受け取る
2.上記で指定した商品の各レビューページに設置されている「続きを読む」リンクを踏み、全文レビューページに遷移
3.レビュー全文を取得する
4.同ページにある「次へ」リンクを踏み、次のレビュー全文ページに飛ぶ
5.3&4を任意で指定したレビュー取得件数分繰り返す
6.完了したらchromeを閉じる

こんな感じの仕様ができればと思います。Seleniumを使うことで、「4.同ページにある「次へ」リンクを踏み、次のレビュー全文ページに飛ぶ」という仕様ができるのが本当にデカいですね。これなら各レビューIDを指定する必要もないので、100件でも1000件でも楽々取得できるようになります。

##Let's ruby
今回使用するライブラリはこんな感じです

#自動ブラウジング
require 'selenium-webdriver'
#HTMLをパースする
require 'nokogiri'
#指定したURLを開く&レビュー本文を取得
require 'open-uri'
#既存のxlsxフォーマットの書き込み
require 'rubyXL'

nokogiriopen-uriはスクレイピングではほぼ必須のライブラリ。
今回はxlsxファイルへの「書き込み」のみ(読み込みはしない)ですのでrubyXLを使用します。

###Selenium起動&全文レビューページに遷移

#Seleniumを立てる(今回はchromeを使います)
driver = Selenium::WebDriver.for :chrome

#商品ページのURLを変数input_urlで受け取る
input_url = "https://www.cosme.net/product/product_id/10163439/top"

#input_urlで受け取ったページに移動する
driver.navigate.to("#{input_url}")

#「続きを読む」リンクを踏み、全文レビューページに遷移する
driver.find_element(:partial_link_text,'続きを読む').click

#カウンター(後のwhile文で使います)
count = 0

#取得レビュー件数を変数limitで受け取る
limit = 50

#商品名を変数nameで受け取る(任意の商品名を設定する。出力するxlsxのファイル名になります。)
name = "ほげほげ"

#変数reviewsの空配列を置いておく(取得した各レビューは、変数reviewsの配列の要素として代入されます。)
reviews = []

driver = Selenium::WebDriver.for :chrome
今回はchromeで行いたいと思います。firefox, IE, Safariなどにも対応しているようです。

limit = 50
取得レビュー件数はここで指定します。今回はwhile構文を使った繰り返し処理を行いますが、その繰り返しの回数=limitの値になります。

reviews = []
取得した各レビューは配列の要素としてreviewsに追加できるようにします。

###while文による繰り返し処理

while count < limit.to_i
  #現在のページのURLを変数current_urlで取得
  current_url = driver.current_url

  #UTF-8に変換(@cosmeの文字コードはShift_JISなので)
  doc = Nokogiri::HTML.parse(open(current_url, "r:Shift_JIS:UTF-8").read)

  #レビューを指定&本文のみを変数nに代入
  n = doc.css("p.read").text

  #変数reviewsに配列要素としてnを代入する
  reviews << n

  #カウンターを追加
  count+=1

  #Dos対策(次のレビューページに遷移するまで1秒以上空ける)
  sleep 1

  #ページ内の「次へ」を選択&ページ遷移
  driver.find_element(:partial_link_text,'次へ').click
end

while count < limit.to_i
今回はwhile文を使ってみました。構文内にカウンターを設置し一周ごとにcount+=1になるようにしてます。limitで指定した取得レビュー件数を上回るまで繰り返し処理を実行する、という仕組みです。

doc = Nokogiri::HTML.parse(open(current_url, "r:Shift_JIS:UTF-8").read)
なんとよくよくみたら@cosmeはShift-JISだったことが判明。UTF-8に変換しておきます。

<meta http-equiv="Content-Type" content="text/html; charset=shift_jis">

sleep 1
次のHTTPリクエストまで1秒以上空けます。

###取得したレビューをEXCELに書き込む

#フォーマットのxlsxを選択
workbook = RubyXL::Parser.parse("@cosme_format.xlsx")

#シートを指定&シート名を変更
worksheet_a = workbook[0]
worksheet_a.sheet_name ="@cosmeレビュー収集"

#指定したセルに各レビューを書き出す
p = 1
reviews.each do |re|
  worksheet_a.add_cell(p,2,"#{re}")
  p+=1
end

#書き込みが完了したらブラウザを終了する
driver.quit

#保存する(序盤で任意で設定したnameの値がここに代入されます。)
workbook.write("@cosmeレビュー収集結果_#{name}.xlsx")

workbook = RubyXL::Parser.parse("@cosme_format.xlsx")
エクセルを操作できるrubyのライブラリは色々ありますが、今回は読み込みはせず書き込みだけなのでrubyXLを使ってみました。

###アウトプット例
モザイクかけましたがこんな感じです。
image.png

#まとめ
sleep 1で次のリクエストまで1秒開けているものの、あまりにも膨大な量を続けてリクエストすることはあまり良くないので、使用には十分注意する。長時間連続して回し続けないこと。
・特殊絵文字?などがレビュー本文に含まれている場合、エラーが起きて処理が止まってしまうので例外処理を用いて止まらないようにする。

6
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
6
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?