N8N ノーコードウェブスクレイピング
N8N ノーコードウェブスクレイピングをAIによるデータ抽出で簡単に
この記事では、N8Nを使用してデータ抽出を自動化する方法を説明します。これにより、時間と労力を節約できます。コーディングの手間なしで、データを簡単に収集し、トレンドを追跡し、競争に先んじる方法を学びます!
なぜウェブスクレイピングにN8Nを使用するのか?
N8Nをウェブスクレイピングの設定手順に入る前に、N8Nがデータ収集の自動化においてなぜ画期的なのかを探ってみましょう。
- ノーコードプラットフォーム: N8Nは、視覚的インターフェースを使用して複雑なワークフローを構築できるようにします。ノードをドラッグ&ドロップするだけでプロセスを作成できるため、プログラミングの知識がない人に最適です。
- スケーラブルな自動化: ワークフローが設定されると、複数のウェブサイトやデータポイントにスケールアップでき、継続的かつ効率的なデータ抽出が可能になります。
- AIによるウェブスクレイピング: N8NをBright DataのようなAI駆動のツールと組み合わせることで、動的コンテンツやボット対策を回避するAIが処理するため、データ抽出が非常に正確になります。使いやすいAIスクレイパーが必要ですか?私のおすすめのAIスクレイパーのリストをチェックしてください。
- 簡単な統合: N8NはBright Data APIとシームレスに統合されており、複雑な設定を行うことなくウェブスクレイピングを自動化できます。
ウェブスクレイピングのためのN8Nの設定:2つの簡単なステップ
N8Nを使用するには、2つの必須事項が必要です。
- N8Nアカウント: 無料のN8Nアカウントにサインアップできます。これにより、開始するための十分な無料プランが提供されます。
- Bright Data APIキー: Bright Dataは、CAPTCHAやその他のボット対策を回避するAI駆動のスクレイピングツールです。ワークフローをテストし、実験するために、1,000回の無料APIコールを提供しています。
プロセスをステップバイステップで進めていきましょう。
ステップ1: N8Nアカウントを作成する
まず、n8n.ioにアクセスし、「Get started for free」ボタンをクリックします。サインアップが完了すると、N8Nワークフローキャンバスに移動します。ここが自動化プロセスの中心です。ノードをドラッグ&接続してワークフローを作成します。コーディングは不要です!
ステップ2: Bright Data APIキーを取得する
ウェブサイトからデータを抽出するには、Bright DataのAPIキーが必要です。Bright Dataのウェブサイトにサインアップした後、ダッシュボードに移動してAPIキーをコピーします。このキーを使用してスクレイピングサービスにアクセスし、CAPTCHAやその他のボット検出システムを回避します。このAPIキーは後のステップで必要になります。
N8Nで最初のウェブスクレイピングワークフローを構築する
アカウントが設定されたので、ウェブスクレイピングの自動化を構築する時が来ました。
ステップ1: N8Nで新しいワークフローを開始する
N8Nダッシュボードに入ったら、「Start from scratch」をクリックして新しいワークフローを作成します。これにより、スクレイピングプロセスを定義するために異なるノードを追加するワークフローキャンバスが開きます。
ステップ2: マニュアルトリガーノードを追加する
最初に必要なノードは「Manual Trigger」ノードです。これにより、準備ができたときに手動でワークフローを開始できます。テストに便利で、スクレイピングが始まるタイミングを制御できます。追加するには、「+」ボタンをクリックし、「Manual Trigger」を検索してキャンバスにドラッグします。
ステップ3: HTTPリクエストノードを追加する
次に、「HTTP Request」ノードを追加します。このノードは、ウェブスクレイピングAPI(この場合はBright Data)への実際のリクエストを行う役割を担います。Manual Triggerノードに接続した後、HTTP Requestノードをクリックして設定を行います。
設定で、メソッドとして「GET」を選択し、URLには次のように入力します:
https://app.Bright Data.com/api/v1/
認証には「None」を選択します。リクエストを機能させるために、4つのクエリパラメータを追加する必要があります。
- api_key: [YOUR_Bright Data_API_KEY]
- url: スクレイピングしたいウェブサイトのURL(例:https://brightdata.com/blog)
- ai_query: Bright Dataに抽出してほしいデータの説明。例えば、「H1見出しと個々のブログ投稿へのリンクを抽出する。」
- ai_extract_rules: ここでは、抽出したい特定のデータを定義します。例えば:
{"h1_heading": {"type": "string", "description": "The main H1 heading from the blog page"},"blog_post_links": {"type": "list", "description": "URLs that link to individual blog posts on this site"}}
ステップ4: データ処理のためのコードノードを追加
次に、スクレイピングしたデータを処理するために「Code」ノードを追加します。ここでデータを次のステージに移る前に操作できます。
データジャーナルのストーリーを受信トレイで取得
この作家からの更新を受け取るために、Mediumに無料で参加してください。
Codeノードをクリックして、以下のJavaScriptを追加します:
const response = $input.first().json;
const blogPostLinks = response.blog_post_links || [];
console.log("Main page H1:", response.h1_heading);
console.log(`Found ${blogPostLinks.length} blog post links`);
// Filter for actual blog post URLs and take the first 5
const linksToScrape = blogPostLinks.filter(link => link.includes('/blog/') && !link.includes('#')).slice(0, 5);
console.log("Blog posts we'll scrape:", linksToScrape);
// Convert relative URLs to full URLs
return linksToScrape.map(link => {
const fullUrl = link.startsWith('http') ? link : `https://www.Bright Data.com${link}`;
return { url: fullUrl, type: 'blog_post' };
});
このコードは、Bright Dataのレスポンスからブログ投稿のリンクを抽出し、不要なリンクをフィルタリングし、相対URLを完全なURLに変換します。
ステップ5: 2番目のHTTPリクエストノード(スパイダー)を追加
個々のブログ投稿をクロールするために、Codeノードの後に2番目の「HTTP Request」ノードを追加します。このノードは、個々のブログ投稿のURLを動的にスクレイピングします。
このノードを以下のように設定します:
- Method: GET
- URL: https://app.brightdata.com/api/v1/
クエリパラメータ:
- api_key: [YOUR_Bright Data_API_KEY]
- url: {{ $json.url }}(これはCodeノードによって出力されたURLを動的に使用します)
- ai_query: “このブログ投稿からメインのH1見出しを抽出する”
- ai_extract_rules: {“h1_title”: {“type”: “string”, “description”: “The main H1 heading of this blog post”}}
ステップ6: ウェブスクレイピングワークフローをテスト
ワークフローが設定されたので、テストする時間です。「Execute Workflow」ボタンをクリックして、スクレイピングプロセスを開始します。ワークフローが各ステップを進む様子が見え、メインページと個々のブログ投稿からデータが抽出されます。
ステップ7: 結果の分析
ワークフローを実行した後、各ノードをクリックして結果を確認します:
- 最初のHTTPリクエスト: 抽出されたH1見出しと個々のブログ投稿へのリンクが表示されます。
- 2番目のHTTPリクエスト(スパイダー): スクレイピングしたブログ投稿のH1見出しが表示されます。
すべてが正しく設定されていれば、複数のページをクロールし、H1見出しを抽出することに成功します。
最後の言葉
このガイドに従うことで、メンテナンスがほとんど不要な強力でスケーラブルなスクレイパーを構築しました。さらに、さまざまなニーズに合わせてカスタマイズ可能です。プロジェクトの規模に関わらず、N8NとBright Dataはウェブスクレイピングをシンプルで効率的にするための柔軟性と力を提供します。
質問がありますか?コメントでお知らせください!
