More than 1 year has passed since last update.

スクレイピングにおけるSeleniumとBeautifulSoupの使い分け

Posted at 2024-06-08

Seleniumと Beautiful Soupのメリット・デメリット

スクレイピングにおいて、Seleniumと Beautiful Soupはそれぞれ長所と短所があります。
整理すると以下のようになります。

Selenium

メリット:

ブラウザを自動化できるので、JavaScriptでレンダリングされたコンテンツを取得可能
ユーザーの操作をシミュレートできる(クリック、スクロールなど)
動的なウェブサイトに対応できる

デメリット:

パフォーマンスが比較的遅い
ブラウザを起動する必要があるため、リソース消費が大きい
ブラウザの自動化は複雑で、コードの保守性が低い可能性がある

Beautiful Soup

メリット:

静的なHTMLを解析するのに適している
軽量でパフォーマンスが高速
HTMLの構造に基づいて要素を探索できる
正規表現で要素を抽出できる

デメリット:

JavaScriptでレンダリングされたコンテンツを取得できない
動的なウェブサイトには対応できない
HTMLの構造が複雑な場合、要素の抽出が難しくなる可能性がある

一般的には、静的なウェブサイトではBeautiful Soupを使い、動的なウェブサイトではSeleniumを使うのが適切です。また、両者を組み合わせて使うこともできます。例えば、SeleniumでページをレンダリングしてHTMLを取得し、その後Beautiful Soupで解析するなどです。

html = driver.page_source

要件やウェブサイトの性質に応じて、適切なツールを選択し、それぞれの長所と短所を意識しながらスクレイピングすることが重要です。

Seleniumと Beautiful Soupの要素抽出コマンドの整理

Selenium

Seleniumでは、WebDriverを使ってブラウザを操作し、要素を特定します。
主な抽出方法は以下の通りです。

find_element(By.ID, 'id')
- 要素のidで特定する
find_elements(By.CLASS_NAME, 'className')
- 要素のクラス名で特定する
find_element(By.TAG_NAME, 'tagName')
- 要素のタグ名で特定する
find_element(By.XPATH, 'xpath')
- XPathで要素を特定する
find_element(By.CSS_SELECTOR, 'css_selector')
- CSS セレクターで要素を特定する

# Seleniumの例
driver.get("https://example.com")
elem = driver.find_element(By.ID, "myElement")
elems = driver.find_elements(By.CLASS_NAME, "myClass")

Beautiful Soup

Beautiful Soupでは、HTMLやXMLの解析ツリーから要素を探索します。主な抽出方法は以下の通りです。

find(name, attrs, recursive, string, **kwargs)
- 指定した条件に合う最初の要素を取得する
find_all(name, attrs, recursive, string, limit, **kwargs)
- 指定した条件に合うすべての要素をリストで取得する
select(selector)
- CSSセレクターに一致する要素を取得する
select_one(selector)
- CSSセレクターに一致する最初の要素を取得する

# Beautiful Soupの例
soup = BeautifulSoup(html_doc, 'html.parser')
elem = soup.find("div", {"id": "myElement"})
elems = soup.find_all("div", {"class": "myClass"})
elems = soup.select("div.myClass")

Seleniumは、ブラウザ操作を通して動的に要素を取得できますが、Beautiful Soupは静的なHTMLを解析するのが得意です。
要件に応じて適切なツールを使い分けましょう。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up