0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

🤖 AI × Browsers-Useで次世代Webスクレイピングを完全自動化!🚀

Posted at

🚀 AIエージェントとBrowsers-Useを活用したWebスクレイピング完全自動化

image.png

📌 はじめに

近年、AIと自動化技術の発展により、Webスクレイピングも単純なデータ抽出から、AIエージェントを活用した高度な自動化が可能になっています。本記事では、Browsers-Use(ヘッドレスブラウザ)とAIエージェントを組み合わせて、効率的にWebスクレイピングを自動化する方法を詳しく解説します。🚀


🎯 なぜBrowsers-UseとAIエージェントを組み合わせるのか?

🔹 Browsers-Useとは?

Browsers-Useは、Webスクレイピングに最適なヘッドレスブラウザを提供するライブラリで、通常のSeleniumやPlaywrightと比較して、より効率的かつ強力にブラウジングを自動化できます。

📌 Browsers-Useの特徴:

  • 高い安定性: JavaScriptのレンダリングや動的コンテンツの取得が可能。
  • 人間のような挙動: ブラウザのふるまいをエミュレートし、ボット検出を回避。
  • マルチスレッド対応: 複数のブラウザを並列実行可能。

🔹 AIエージェントとは?

AIエージェントとは、スクレイピングプロセスを知能的に制御し、状況に応じた意思決定を行うAIプログラムです。

📌 AIエージェントの活用例:

  • 🔄 CAPTCHAの回避: 2Captchaなどのサービスを利用しながら、AIが解決を制御。
  • 🧠 サイト構造の自動解析: スクレイピング対象サイトのDOMを学習し、最適なデータ取得方法を決定。
  • 🛑 IPブロック対策: AIが異なるプロキシを使用して、ブロックされるリスクを低減。

🛠️ 必要なライブラリのインストール

まず、必要なライブラリをPythonにインストールしましょう。

pip install browsers-use selenium requests beautifulsoup4 openai

📌 ライブラリの用途:

  • browsers-use → ヘッドレスブラウザを使用し、JavaScriptレンダリングが必要なサイトもスクレイピング可能。
  • selenium → Webページの操作を自動化。
  • requests → API通信やデータ取得に利用。
  • beautifulsoup4 → HTML解析を行い、必要なデータを抽出。
  • openai → AIエージェントを活用し、スクレイピングの最適化。

🌍 Browsers-Useでヘッドレスブラウザを起動

まずは、Browsers-Useを使ってブラウザを起動し、ターゲットサイトを開きます。

from browsers_use import Browser
import time

# ブラウザを初期化
browser = Browser(headless=True)
driver = browser.get_driver()

# ターゲットサイトを開く
driver.get("https://example.com")
time.sleep(5)  # ページ読み込み待機

# ページのタイトルを取得
print("📌 ページタイトル:", driver.title)

# ブラウザを閉じる
browser.close()

🔹 このコードの動作:

  • Browser(headless=True) を使用し、ヘッドレスモードでブラウザを起動。
  • driver.get() で指定したWebページを開く。
  • driver.title で現在のページタイトルを取得。
  • browser.close() でブラウザを閉じる。

🤖 AIエージェントを活用してWebスクレイピングを最適化

AIエージェントを利用すると、スクレイピングの柔軟性が向上します。以下の例では、AIがWebページの構造を分析し、最適なスクレイピング方法を自動で選択します。

import openai
from bs4 import BeautifulSoup

openai.api_key = "your_openai_api_key"

def analyze_page(html):
    soup = BeautifulSoup(html, 'html.parser')
    response = openai.ChatCompletion.create(
        model="gpt-4",
        messages=[
            {"role": "system", "content": "あなたはHTML解析のエキスパートです。ページの主要なデータを抽出してください。"},
            {"role": "user", "content": soup.prettify()}
        ]
    )
    return response["choices"][0]["message"]["content"]

# WebページのHTMLを取得
html_content = driver.page_source

# AIを使って解析
data_extracted = analyze_page(html_content)
print("📌 抽出データ:", data_extracted)

🔹 このコードの動作:

  • BeautifulSoup を使ってHTMLを解析。
  • openai.ChatCompletion.create() を利用し、AIがページのデータ構造を理解。
  • analyze_page() で適切なデータを自動抽出。

🛑 CAPTCHA対策とIPブロック回避

Webスクレイピングでは、サイト側のボット検出に引っかからないようにする必要があります。AIエージェントを使うことで、これを回避できます。

🔹 1. CAPTCHAの解決

2Captcha APIを使って、自動でCAPTCHAを解決します。

import requests

API_KEY = "your_2captcha_api_key"
captcha_url = "https://2captcha.com/in.php"

response = requests.post(captcha_url, data={
    "key": API_KEY,
    "method": "userrecaptcha",
    "googlekey": "サイトキー",
    "pageurl": "https://example.com",
    "json": 1
})

captcha_id = response.json().get("request")
print("📌 CAPTCHA ID:", captcha_id)

🔹 このコードの動作:

  • 2CaptchaにCAPTCHAの解決リクエストを送信。
  • 取得したcaptcha_idを使って、解決結果を取得。

🔹 2. IPブロックの回避

AIエージェントがIPをランダムに切り替え、スクレイピングの安全性を確保します。

proxy_list = ["http://proxy1", "http://proxy2", "http://proxy3"]
selected_proxy = random.choice(proxy_list)
print("🛡 使用プロキシ:", selected_proxy)
driver.execute_script(f"window.navigator.__defineGetter__('webdriver', () => undefined)")

🎉 まとめ

Browsers-UseでWebスクレイピングを効率化!
AIエージェントを活用し、データ取得を自動化!
CAPTCHA回避やIPブロック対策で安全なスクレイピング!

🔮 次のステップ:

実は、私はAIをさらに進化させ、完全自律型スクレイピングエージェントを開発することに挑戦しています!🤖

📢 ぜひフォローして、一緒に学びましょう!🚀

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?