PythonのMechanicalSoupでスクレイピングするための初心者向けマニュアル

Posted at 2024-08-31

第1章: メカニカルスープとは

メカニカルスープ（MechanicalSoup）は、Pythonで書かれたウェブスクレイピングライブラリです。ウェブブラウザの動作を模倣し、ウェブサイトとの対話を自動化します。

主な特徴:

HTMLの解析にBeautifulSoupを使用
リクエストの送信にRequestsライブラリを使用
フォームの操作やリンクのクリックが簡単

第2章: 環境設定

# pip install MechanicalSoup

import mechanicalsoup

print(mechanicalsoup.__version__)

このコードは、MechanicalSoupをインストールし、そのバージョンを表示します。

用語説明:

pip: Pythonのパッケージインストーラー
import: Pythonで外部モジュールを読み込むキーワード

第3章: 基本的な使い方

import mechanicalsoup

# ブラウザインスタンスの作成
browser = mechanicalsoup.StatefulBrowser()

# ウェブページを開く
browser.open("https://www.python.org")

# ページのタイトルを取得して表示
print(browser.get_current_page().title.string)

# 現在のURLを表示
print(browser.get_url())

用語説明:

StatefulBrowser: セッション状態を保持するブラウザクラス
open(): 指定したURLのページを開くメソッド
get_current_page(): 現在のページのBeautifulSoupオブジェクトを返すメソッド

第4章: ページ内容の解析

import mechanicalsoup

browser = mechanicalsoup.StatefulBrowser()
browser.open("https://www.python.org")

# ページ内容の取得
soup = browser.get_current_page()

# すべての段落を取得
paragraphs = soup.find_all("p")

# 段落のテキストを表示
for p in paragraphs:
    print(p.text)

# 特定のクラスを持つ要素を取得
news_items = soup.find_all("div", class_="news-item")
for item in news_items:
    print(item.find("h2").text.strip())

用語説明:

find_all(): 指定した条件に一致するすべての要素を取得するメソッド
find(): 指定した条件に一致する最初の要素を取得するメソッド
strip(): 文字列の前後の空白を削除するメソッド

第5章: フォームの操作

import mechanicalsoup

browser = mechanicalsoup.StatefulBrowser()
browser.open("https://httpbin.org/forms/post")

# フォームの選択
browser.select_form('form[action="/post"]')

# フォームフィールドの設定
browser["custname"] = "太郎"
browser["custtel"] = "090-1234-5678"
browser["custemail"] = "taro@example.com"
browser["size"] = "medium"
browser["topping"] = ["bacon", "cheese"]
browser["comments"] = "おいしいピザを楽しみにしています！"

# フォームの送信
response = browser.submit_selected()

# レスポンスの表示
print(response.text)

用語説明:

select_form(): 指定したセレクタに一致するフォームを選択するメソッド
submit_selected(): 選択されたフォームを送信するメソッド

第6章: リンクのクリック

import mechanicalsoup

browser = mechanicalsoup.StatefulBrowser()
browser.open("https://www.python.org")

# 特定のテキストを持つリンクを探してクリック
about_link = browser.find_link(text="About")
browser.follow_link(about_link)

print(f"現在のURL: {browser.get_url()}")
print(f"ページタイトル: {browser.get_current_page().title.string}")

# 正規表現を使ってリンクを探す
import re
download_link = browser.find_link(text=re.compile("Downloads"))
browser.follow_link(download_link)

print(f"現在のURL: {browser.get_url()}")
print(f"ページタイトル: {browser.get_current_page().title.string}")

用語説明:

find_link(): 指定した条件に一致するリンクを探すメソッド
follow_link(): 指定したリンクをクリックするメソッド
re.compile(): 正規表現パターンをコンパイルする関数

第7章: クッキーの管理

import mechanicalsoup
import http.cookiejar

# クッキージャーの作成
cookie_jar = http.cookiejar.MozillaCookieJar("cookies.txt")

# ブラウザインスタンスの作成（クッキージャーを指定）
browser = mechanicalsoup.StatefulBrowser(cookie_jar=cookie_jar)

# ウェブサイトにアクセス（クッキーを受け取る）
browser.open("https://httpbin.org/cookies/set?session=test")

# クッキーの保存
browser.session.cookies.save()

# 新しいブラウザインスタンスの作成
new_browser = mechanicalsoup.StatefulBrowser(cookie_jar=cookie_jar)

# 保存されたクッキーの読み込み
new_browser.session.cookies.load(ignore_discard=True, ignore_expires=True)

# クッキーを使ってアクセス
new_browser.open("https://httpbin.org/cookies")

print(new_browser.get_current_page())

用語説明:

MozillaCookieJar: Mozillaブラウザ形式でクッキーを保存・読み込むクラス
ignore_discard: 破棄予定のクッキーも読み込むオプション
ignore_expires: 有効期限切れのクッキーも読み込むオプション

第8章: ヘッダーの設定

import mechanicalsoup

browser = mechanicalsoup.StatefulBrowser()

# カスタムヘッダーの設定
browser.session.headers.update({
    "User-Agent": "MyCustomBot/1.0",
    "Accept-Language": "ja,en-US;q=0.9,en;q=0.8"
})

# ヘッダーを確認するサイトにアクセス
browser.open("https://httpbin.org/headers")

# レスポンスの表示
print(browser.get_current_page())

用語説明:

headers: HTTPリクエストヘッダー
User-Agent: クライアントソフトウェアの識別情報
Accept-Language: クライアントが受け入れ可能な言語

第9章: エラー処理

import mechanicalsoup
import requests.exceptions

try:
    browser = mechanicalsoup.StatefulBrowser()
    browser.open("https://nonexistent-website.com")
except requests.exceptions.RequestException as e:
    print(f"リクエストエラー: {e}")

try:
    browser.select_form('form#non-existent-form')
except mechanicalsoup.LinkNotFoundError:
    print("指定されたフォームが見つかりません")

try:
    browser.follow_link(browser.find_link(text="存在しないリンク"))
except mechanicalsoup.LinkNotFoundError:
    print("指定されたリンクが見つかりません")

用語説明:

try-except: Pythonの例外処理構文
RequestException: requestsライブラリの基本的な例外クラス
LinkNotFoundError: リンクやフォームが見つからない場合の例外

第10章: 日本語サイトの扱い

import mechanicalsoup

browser = mechanicalsoup.StatefulBrowser()
browser.open("https://www.python.jp/")

# ページのエンコーディングを確認
print(f"ページのエンコーディング: {browser.get_current_page().original_encoding}")

# 日本語のコンテンツを取得
title = browser.get_current_page().title.string
print(f"ページタイトル: {title}")

# 日本語の検索
search_results = browser.get_current_page().find_all(text="Python")
print(f"'Python'の出現回数: {len(search_results)}")

# 日本語でフォーム入力（例：架空の検索フォーム）
try:
    browser.select_form('form[action="/search"]')
    browser["q"] = "データ分析"
    response = browser.submit_selected()
    print(f"検索結果のURL: {browser.get_url()}")
except mechanicalsoup.LinkNotFoundError:
    print("検索フォームが見つかりませんでした")

用語説明:

original_encoding: BeautifulSoupが検出したページの元のエンコーディング
文字コード: 文字をコンピュータで扱うための数値表現方式（例：UTF-8, Shift-JIS）

第11章: ページネーションの処理

import mechanicalsoup
import time

browser = mechanicalsoup.StatefulBrowser()
base_url = "https://quotes.toscrape.com/page/{}/"
page_num = 1

while True:
    url = base_url.format(page_num)
    browser.open(url)
    
    # ページが存在しない場合はループを抜ける
    if "No quotes found!" in browser.get_current_page().text:
        break
    
    # 現在のページから引用を抽出
    quotes = browser.get_current_page().find_all("span", class_="text")
    for quote in quotes:
        print(f"引用: {quote.text}")
    
    print(f"ページ {page_num} 完了")
    page_num += 1
    
    # サーバーに負荷をかけないよう、リクエスト間隔を設ける
    time.sleep(1)

print("全ページのスクレイピングが完了しました")

用語説明:

ページネーション: ウェブページの内容を複数のページに分割する技術
format(): 文字列内の置換フィールドを値で置き換えるメソッド
time.sleep(): 指定した秒数だけプログラムの実行を一時停止する関数

第12章: 画像のダウンロード

import mechanicalsoup
import os
import requests
from urllib.parse import urljoin

def download_image(url, folder):
    response = requests.get(url)
    if response.status_code == 200:
        filename = os.path.join(folder, os.path.basename(url))
        with open(filename, 'wb') as f:
            f.write(response.content)
        print(f"画像をダウンロードしました: {filename}")
    else:
        print(f"画像のダウンロードに失敗しました: {url}")

browser = mechanicalsoup.StatefulBrowser()
browser.open("https://unsplash.com/")

# 画像を保存するフォルダを作成
save_folder = "downloaded_images"
os.makedirs(save_folder, exist_ok=True)

# ページ内のすべての画像を取得
images = browser.get_current_page().find_all("img")

for img in images:
    src = img.get("src")
    if src:
        # 相対URLを絶対URLに変換
        full_url = urljoin(browser.get_url(), src)
        download_image(full_url, save_folder)

print("画像のダウンロードが完了しました")

用語説明:

os.path.join(): OSに依存しないパス結合
os.path.basename(): パスからファイル名を取得
urljoin(): 相対URLを絶対URLに変換
os.makedirs(): ディレクトリを作成（既存の場合は無視）

第13章: JavaScriptの処理

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import time

# Chromeオプションの設定
chrome_options = Options()
chrome_options.add_argument("--headless")  # ヘッドレスモードで実行

# WebDriverの設定
service = Service('path/to/chromedriver')
driver = webdriver.Chrome(service=service, options=chrome_options)

# JavaScriptで動的に生成されるコンテンツを含むページにアクセス
driver.get("https://www.dynamic-content-example.com")

# 動的コンテンツが読み込まれるまで待機
wait = WebDriverWait(driver, 10)
dynamic_element = wait.until(EC.presence_of_element_located((By.ID, "dynamic-content")))

# ページのHTMLを取得
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# 動的に生成されたコンテンツを解析
dynamic_content = soup.find(id="dynamic-content")
if dynamic_content:
    print(f"動的コンテンツ: {dynamic_content.text}")
else:
    print("動的コンテンツが見つかりませんでした")

# ブラウザを閉じる
driver.quit()

用語説明:

Selenium: ブラウザ自動化ツール
WebDriver: ブラウザを制御するためのインターフェース
ヘッドレスモード: GUIなしでブラウザを実行するモード
動的コンテンツ: JavaScriptによって後から生成されるウェブページの内容

第14章: 並列処理

import mechanicalsoup
from concurrent.futures import ThreadPoolExecutor
import time

def scrape_url(url):
    browser = mechanicalsoup.StatefulBrowser()
    try:
        browser.open(url)
        title = browser.get_current_page().title.string
        return f"URL: {url}, タイトル: {title}"
    except Exception as e:
        return f"URL: {url}, エラー: {str(e)}"
    finally:
        browser.close()

urls = [
    "https://www.python.org",
    "https://www.google.com",
    "https://www.github.com",
    "https://www.stackoverflow.com",
    "https://www.wikipedia.org"
]

start_time = time.time()

# 並列処理の実行
with ThreadPoolExecutor(max_workers=3) as executor:
    results = list(executor.map(scrape_url, urls))

for result in results:
    print(result)

end_time = time.time()
print(f"実行時間: {end_time - start_time:.2f}秒")

用語説明:

ThreadPoolExecutor: 並列処理を管理するクラス
max_workers: 同時に実行するスレッドの最大数
map(): イテラブルの各要素に関数を適用し、結果をイテレータとして返す

この例では、複数のURLを並列にスクレイピングしています。ThreadPoolExecutorを使用することで、同時に複数のリクエストを処理し、全体の実行時間を短縮できます。

第15章: エチカルスクレイピング

import mechanicalsoup
import time
from urllib.robotparser import RobotFileParser

def is_allowed(url, user_agent):
    rp = RobotFileParser()
    rp.set_url(f"{url}/robots.txt")
    rp.read()
    return rp.can_fetch(user_agent, url)

def ethical_scrape(url, user_agent="EthicalBot/1.0"):
    if not is_allowed(url, user_agent):
        print(f"robots.txtによってアクセスが禁止されています: {url}")
        return

    browser = mechanicalsoup.StatefulBrowser()
    browser.session.headers.update({"User-Agent": user_agent})

    try:
        browser.open(url)
        title = browser.get_current_page().title.string
        print(f"URL: {url}, タイトル: {title}")
    except Exception as e:
        print(f"エラーが発生しました: {str(e)}")
    finally:
        browser.close()

    # リクエスト間隔を設定（ここでは5秒）
    time.sleep(5)

# スクレイピングの実行
urls = [
    "https://www.python.org",
    "https://www.example.com",
    "https://www.wikipedia.org"
]

for url in urls:
    ethical_scrape(url)

用語説明:

robots.txt: ウェブサイトのクローリングポリシーを定義するファイル
RobotFileParser: robots.txtを解析するためのPythonクラス
User-Agent: クライアントソフトウェアを識別する文字列

このコードは、以下のエチカルスクレイピングの原則を実践しています：

robots.txtの尊重: 各サイトのrobots.txtファイルを確認し、アクセスが許可されているかどうかを確認します。
適切なUser-Agentの設定: スクレイピングボットであることを明示的に示すUser-Agentを使用します。
リクエスト間隔の設定: サーバーに過度の負荷をかけないよう、リクエスト間に適切な間隔を設けています。

エチカルスクレイピングを行うことで、ウェブサイト所有者との良好な関係を維持し、法的問題を回避することができます。

以上で、メカニカルスープを使用した日本語ウェブスクレイピングの15章にわたる詳細な解説が完了しました。

各章で説明した技術を組み合わせることで、効率的で倫理的なウェブスクレイピングプロジェクトを実現できます。

実際のプロジェクトでは、これらの基本原則を守りながら、対象ウェブサイトの構造や特性に合わせてコードをカスタマイズしていくことが重要です。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up