皆さんは、スクレイパーの構築と維持にどれだけの時間を費やしていますか?終わりの見えないアンチボット対策、突然現れるCAPTCHA、次々と増える動的コンテンツ……。
こうした障害との戦いは貴重な開発リソースを消費し、本来の目的であるデータ分析やプロダクト開発から遠ざかってしまいがちですよね。
今回は、そんなインフラ運用の負担を大きく軽減してくれる Bright Dataの「Unlocker Scraping Suite」 を紹介します。
-
ラインナップは以下の4種類です:
NotebookLMに依頼してインフォグラフィックを作成してみました。
一見すると非常に分かりやすく整理されていて、仕上がりも良い感じです!
ただ、日本語対応はまだ得意とは言えず、ところどころ不自然な表現も見受けられたため、最後は手作業で修正しました。
これらは単なるツールの羅列ではなく、それぞれが特定の課題を解決するために設計されたプロダクト群です。
本記事では、各ツールの特徴やメリット・デメリット、そして具体的なユースケースを整理しながら、どのシーンで何を使うべきかを徹底的に解説していきます。
1. 各ツールの詳細とテクニカルな特徴
ここからは、各ツールの強みと注意点を深掘りしていきます。
1.1 Unlocker API: 最も手軽な直接アクセス
リクエストを送れば、クリーンなデータが返ってくる!
これがUnlocker APIの核心です。ユーザー側でプロキシ選定・ブラウザ指紋対策・CAPTCHA処理などを実装する必要はなく、これらはすべてバックエンドで自動的に処理されます。
-
最適な利用シーン:
Unlocker APIはページ内でのクリックやスクロールなど、複雑なユーザー操作が不要なケースで特に強みを発揮します。HTMLを自動的にMarkdown形式に変換して返す機能(data_format: markdown)もあるため、AI解析に最適です。
動作はシンプルで高速です。「とにかく確実にデータを取りたい!」場面では最も頼れる選択肢になります。
例えば、- 商品ページ、検索結果一覧など静的または初期表示でデータが揃うSPA
- 予約サイトなどのAPIエンドポイントを直接叩くパターン
- 国別ページの差分調査
- LLMにページを丸ごと渡して解析させたいケース
-
メリット:
-
コスト効率: データ取得に成功したリクエストのみ課金されます。ブロックされやすいサイトほど、
Unlocker APIの方が結果的にコスパが良くなるケースが非常に多いです。 -
多様な出力: HTML/JSONに加え、
screenshot指定で画像化、markdown指定でLLM向けテキスト取得も可能です。
-
コスト効率: データ取得に成功したリクエストのみ課金されます。ブロックされやすいサイトほど、
-
⚠️ 注意点:
- ブラウザ(Chrome等)やブラウザ自動化ライブラリ(
Puppeteer,、Playwright、Selenium等)と直接組み合わせて使用することはできません。
Unlocker APIはインタラクションなしでデータを取得することに特化しており、プロキシ管理や指紋対策を内部で完結させています。ブラウザ操作が必要な場合はBrowser APIを使用する必要があります。-
Manual headers & cookies機能を有効にすると、完全自動制御から外れるため、成功・失敗に関わらず全リクエストが課金対象となります。
ユーザーがリクエストパラメータ(ヘッダー等)を強制指定すると、Bright Data側で最適なブロック解除ロジック(指紋対策やヘッダーの自動調整)を完全に制御できなくなり、成功率に対する責任を持てなくなるためです。
- ブラウザ(Chrome等)やブラウザ自動化ライブラリ(
1.2 Browser API: インタラクティブなサイトの完全攻略
Bright Dataのマネージド・クラウドブラウザインフラ
使い慣れたPuppeteer、Playwright、Seleniumのスクリプトを、Bright Dataのクラウドブラウザに接続するだけで、スケーラブルなスクレイピングが実現します。
Unlocker APIが「自動レンダリング」かつ「高い突破性能」が特徴なのに対し、Browser APIは完全なブラウザ操作が必要なケースを担うプロダクトです。
-
最適な利用シーン:
- React / Vue / Next.js / Nuxt など高度なSPA
- 無限スクロールが実装されたEC・SNS系サイト
- フォーム入力(ログイン、検索フォーム、日付選択など)
- 多段階のページ遷移が必要なフロントエンド
-
Puppeteer・Playwrightの既存コードをそのままクラウド化したい場合
Unlocker APIでは対応しきれない操作を伴う動的UXに非常に強いのが特徴です。 -
メリット:
- 高い互換性: 既存の自動化コードをほぼそのまま流用可能。
-
強力なデバッグ:
Browser API Debuggerを使えば、Chrome DevToolsと連携して、- DOM構造
- コンソールログ
- ネットワーク通信
- スクリーンショット
- 要素のクリック可否
などをリアルタイムで確認できます。ローカルでは再現しないブロック挙動や地理的差分もクラウド上で可視化できるため、トラブルシューティングが高速化します。
-
CDP(
Chrome DevTools Protocol)コマンド: CDPレベルでコマンド制御できるため、以下のような高度操作が可能です。- CAPTCHA解決フローの明示的トリガー
- 広告リソースのブロック
- フィンガープリント制御
- スクリプトインジェクション
- エミュレーション(デバイス、ネットワーク状況など)
-
⚠️ 注意点:
- 課金体系: 転送データ量(GB)ベースです。コスト削減のため、画像や広告などの不要なリソースは必ずブロックしましょう。
- セッション制限: アイドルタイムアウト(5分)、最大セッション長(30分)などの制約があります。長時間の保持を前提にした用途は Dataset や Data Collector の方が適しています。
- コンプライアンス要件: セキュリティ保護の観点から、デフォルトではパスワード入力が無効化されています。ログイン操作を伴うワークフローを行う場合は、Bright DataのKYC(本人確認)プロセスを完了すると解除できます。
1.3 SERP API: 検索エンジンデータのスペシャリスト
検索エンジン専用スクレイピング
Google、Bing、YouTubeなどの検索エンジンの検索結果ページは、UI更新の頻度が高く、要素構造が頻繁に変わるため、スクレイピングが最も難しい領域のひとつです。
SERP APIはこの領域に特化しており、SERPを最新構造に合わせて自動で解析し、パース済みJSONとして返してくれる「検索エンジン専用スクレイピング」ツールです。
-
最適な利用シーン:
SERP APIは「検索エンジン関連のデータを安定取得したい!」ケースでは最適かつ最もコスト効率の高い選択肢です。- SEO順位モニタリング
- アドインテリジェンス(広告出稿状況解析)
- 価格比較・競合調査
- ブランドセーフティ検査
- キーワードごとの市場動向レポート
-
メリット:
-
構造化データ: SERPには多様な要素が混在しています(オーガニック検索結果、ショッピング広告、リスティング広告、ナレッジパネル、画像・動画カルーセル、ローカルパック、AI Overview)。
SERP APIはこれらをBright Dataが自動解析し、独自スキーマでJSON化して返却します。 -
大量処理に強い非同期ワークフロー:
SERP APIは次の3段階で動く非同期モデルを採用しています:Trigger(タスク登録)Monitor(処理状況確認)-
Download(データ受け取り)
これにより、数万〜数十万件規模のキーワード取得も高速・安定して実行できます。LLMや分析基盤からのバッチ処理とも相性が良い構造です。
- 成功リクエストベースの単純課金でコスト予測が容易: スクレイピングでよくある「転送データ量ベース課金」の心配が不要です。
- Google検索の「トップ100」一括取得: Bright Dataの専用エンドポイントを使用することで、1回のリクエストで1位〜100位までの結果を一括取得できます。
- AIエージェント向けの超高速対応: リアルタイム性が求められるAIエージェント向けに、1秒未満で結果を返すプレミアムルーティングオプションもあります。
-
Enhanced Adsモード: 広告データを収集する場合、Enhanced Ads機能をオンにすると、Cookieを持たないシークレットモードのような状態で検索を行い、通常よりも広範囲で多様な広告を検出できる可能性があります(Googleのみ)
SEOツールや広告代理店など、安定したモデル構築が重要な業務に最適です。
-
構造化データ: SERPには多様な要素が混在しています(オーガニック検索結果、ショッピング広告、リスティング広告、ナレッジパネル、画像・動画カルーセル、ローカルパック、AI Overview)。
-
⚠️ 注意点:
SERP APIはSERP構造の解析に特化した専用サービスです。通常のECサイト、予約サイト、SNSやメディアサイトなどを取得する場合は、Web UnlockerやBrowser APIを使用してください。
1.4 Crawl API: ドメイン全体を丸ごと取得フルオートクローラー
「サイトマップ不要・コード不要の全自動クローリング」
Crawl APIは、Bright Dataの中でも最も人手がいらないデータ収集方式を実現する製品です。
URL(ルートドメイン)を指定するだけで、クローラーがサイト構造を自動探索し、
全ページをクロールしながらテキスト化(Markdown含む)して返すことができます。特に生成AI時代のデータ収集に最適化されています。
-
最適な利用シーン:
- AIモデルの学習データセット生成
- SEO監査・サイトパフォーマンス分析
- サイト移行・CMSリニューアル時のアーカイブ作成
- 全ページの品質評価(文章校閲、自動タグ付け、UI監査など)
企業規模に関わらず、「大量のページを自動で一気に取りたい!」用途では最も効率の良い選択肢です。
-
メリット:
-
LLM親和性:
Crawl APIはHTMLだけでなく、そのままAIに投げるクリーンなMarkdown でコンテンツを返せます。- 余分な広告やUI要素が除去された本文中心の構造化テキスト
- セクション分割、リンク情報も保持
- NLP、LLMの前処理のコストを大幅削減
AI開発チームからは「これだけで前処理工数が1/10になった!」という声も多いです。
-
外部パイプラインとの自動連携:
取得したデータは以下に自動転送できます:- AWS S3
- Google Cloud Storage(GCS)
- Webhook
などへの2次処理パイプライン
データ取得 → AI処理 → 解析 → ダッシュボード化
というデータパイプラインの自動化に組み込みやすい点が大きなメリットです。 -
No-Codeでジョブ作成可能: 管理画面のGUIからジョブを実行できるため、非エンジニアのマーケターやSEO担当者でもご利用可能です。
-
カスタム出力フィールド: 単にMarkdownにするだけでなく、必要な要素だけを抽出できます。
custom_output_fieldsを指定することで、「本文とタイトルだけ欲しい」「画像リンクも残したい」といった細かい出力調整が可能です。
-
-
⚠️ 注意点:
-
非同期処理:
Crawl APIは数百〜数万ページをまとめて処理することが前提なので「処理完了まで時間がかかり」、「進捗はジョブIDベースで確認する必要がある」といった性質があります。
リアルタイムの在庫監視や即時レスポンスが必要なAIエージェントには適しません。その場合は
Unlocker APIを使用してください。 -
非同期処理:
2. ユースケース別・選び方ガイド
各ツールの違いはイメージできたでしょうか?
ここでは、いくつかの実例を挙げながら「どの場面でどのツールを使うべきか」を確認していきます。
シナリオ1:ECサイトの価格・在庫監視
課題: 毎日決まった時間に商品ページへアクセスし、価格と在庫をチェックしたい。ユーザー操作は不要。
✅ 最適解: Unlocker API
理由はシンプルです:
- 取得対象が「商品詳細ページ」という1ページ完結の情報
- クリックや入力などの操作は不要
- ECサイトはブロックが強いため、Unlockerの突破力が必要
- 成功リクエスト課金のため、コストが予測しやすい
Browser APIを使うのは過剰で、転送データ量(GB)課金の分だけコストが高くなりがちです。
シナリオ2:会員制SNSのタイムライン収集
課題: ログインフォームに入力し、無限スクロールで読み込まれる全投稿を収集したい。
✅ 最適解: Browser API
理由は以下の通りです:
- ログイン操作(入力)が必要
- 投稿読み込みは無限スクロール(JSイベント + 追加XHR)
- 動的UXを完全に再現できるのは
Browser APIのみ
Unlocker APIはログインやスクロールなどのインタラクションを必要とする処理には非対応です。こうした「ユーザー操作の再現」が必要な場合は、Browser APIを選ぶのが最適です。
シナリオ3:検索順位と広告表示の定点観測
課題: 特定キーワードでのGoogle検索順位トップ100と、表示される広告を毎日計測したい。
✅ 最適解: SERP API
SERPは構造変化の頻度が高く、通常のスクレイピングでは解析コストが非常に大きい領域です。
SERP APIはGoogleのTop 100 Resultsを自動で返す機能があり、オーガニック検索、広告枠、AI Overviewなどの要素を自動で分解して返してくれます。
そのため、SEOツールや広告代理店の定番ワークフローでも広く利用されています。
シナリオ4:社内LLM学習用のブログデータ収集
課題: 競合ブログの全記事をMarkdownで取得し、社内のLLMに学習させたい。
✅ 最適解: Crawl API
「サイト全体の網羅的収集」と「Markdown出力」という2つの要件を同時に満たすには、Crawl APIが最適です。これを利用することで、スクレイピングからデータ整形までの工数を大幅に削減できます。
LLM学習用の大量・構造化テキストを取得するのは、
Crawl APIが最も得意とする領域です。
3. 4つのAPI比較表
それぞれのツールが「どのようなターゲット」に対し、「どのようなアプローチ」で挑むのかをまとめました。
| ツール | 主な用途 | インタラクション | 最適なターゲット | 課金モデル |
|---|---|---|---|---|
Unlocker API |
単一リクエストでHTML/JSONを取得 | なし (非対話型) | 静的コンテンツ、APIエンドポイント | 成功リクエスト単位 (CPM) |
Browser API |
ブラウザ自動化で操作を実行 | 高い (クリック/入力可) | 動的サイト(SPA)、要ログインページ | 転送量 (GB) 単位 |
SERP API |
検索結果を大規模収集 | 特化型 (パラメーター指定) | Google/Bing等の検索結果 | 成功リクエスト単位 (CPM) |
Crawl API |
ドメイン全体のコンテンツ抽出 | なし (全自動巡回) | サイト全体、LLM学習データ | 非同期ジョブ (ページ数/レコード課金) |
まとめ
プロジェクトの要件に応じて、次の3つの視点からツールを使い分けてください。
- ターゲット: 取得対象は静的ページか、SPA・JSリッチな動的ページか?
- 操作: 単純アクセスだけで完結するか?それともログイン、入力、スクロール などのインタラクションが必要か?
- スコープ: 対象は1ページなのか、検索結果なのか、あるいはサイト全体 を一括で収集したいのか?
プロキシのローテーションやCAPTCHA対策といった「守りの開発」はBright Dataに任せて、皆さんは取得したデータを使ってどのような価値を生み出すかという「攻めの開発」に集中しましょう!
Happy Scraping! ![]()
少しでもご興味がありましたら、ぜひ無料トライアルで実際にお確かめください。
Bright Dataを今すぐ試しませんか (無料トライアルはこちら)
通常、新規登録後は「Playgroundモード」と呼ばれる無料トライアルが自動的に開始し、2ドルの少量クレジットが付与されます。期間限定で今回のリンクを経由して新規登録していただくと、通常の2ドルに加え、さらに10ドルのクレジットが付与されます!
