Pythonでseleniumを用いたスクレイピング #Python

pythonにてseleniumを使う機会があったので、メモ。

chromedriverのダウンロード

以下のURLからchromedriverをダウンロード
http://chromedriver.chromium.org/downloads
firefoxdriverもあるらしい。

➜   pip install selenium

無事インストールできたらOK

from selenium import webdriver
driver = webdriver.Chrome(executable_path="./chromedriver")

chromedriverへのパスは注意。上記コードは同じディレクトリに配置想定。

url  = "https://www.google.co.jp/"
driver.get(url)

以下の2つのメソッドを使用した。

find_elements_by_xpath
- リストなど、複数あるものを取得。
- ループを回してリストに繰り返し処理をかけて処理を効率化することができる。
find_element_by_xpath
- 特定の要素を狙って取得

なお、xpath 以外にも、

などの要素取得方法がある。
参考

今回は xpath を使用した。xapthはデベロッパーツールから確認できる。
macのショートカットは、 command + option + i

デベロッパーツールにて、HTML要素を右クリックするとメニューが出てくるので、
Copy > Copy XPath の順で選択。

要素（HTMLタグ）の中の属性(attribute)を取得したい場合は get_attribute("属性名") を使う。

例

driver.find_element_by_xpath("//div[@class='hoge']/div[1]/a/img").get_attribute("src")

例では src 属性の値を取得している。

以下のような場合に b を取得するにはどうしたらいいか?

<div id="hoge">
  <div>a</div>
  <div>b</div>
  <div>c</div>
</div?>

以下のようにする。

driver.find_element_by_xpath("//div[@id='hoge']/div[2]").text

2番目に格納されているdivと明示的に示せば、bが取得できる。
参考