Qiita Teams that are logged in
You are not logged in to any team

Log in to Qiita Team
Community
OrganizationAdvent CalendarQiitadon (β)
Service
Qiita JobsQiita ZineQiita Blog
2
Help us understand the problem. What is going on with this article?
@Octoparse_Japan

知らないと損をする!無料Webスクレイピングツールで営業リストの作成方法 

More than 1 year has passed since last update.

営業リストはアプローチすべき見込み客・案件の一覧表です。
項目として、社名、住所、電話番号、ホームページのURL、先方の担当者名、メールアドレスなど名刺に記載されている情報が挙げられます。営業リストは、営業に役立つリストでなければ意味がありません。

営業リストの作成は営業マンとしては避けては通れないものです。より多くの利益を上げたい企業にとってはもしろ、営業リスト=売上だと言えるのでしょうか。しかし、その作業はそれほど簡単なことではありません!

ToBの営業マンにとって、高い質の営業リストを生み出すことが最大の課題の1つです。営業リストの重要性を理解しているあなたは、Web検索、SNS検索や求人サイトからプックアップするなどいくつかの方法についてはすでに知っているかと思います。ただ、それらの方法はすべて手作業で行う必要がありますので、すでにAI時代に入っている現在ではあまりにも効率が低いのではないですか。これからこの記事で無料スクレイピングツールOctoparseを利用して、数秒で千件以上の営業リストを獲得する方法を教えます。
ここには獲得されたiタウンページ大阪府自動車修理店のデータがあります。興味のある方にはぜひこの記事を読んでください。

以下の利用シーンを想像してみてください。

田中さんは、自動車修理工場に部品を販売する新興企業を経営しています。iダウンページのWebサイトから大阪府内の見込み顧客の基本情報を獲得したいです。例えば、部品を購入する可能性がある自動車修理のお店・施設の名前、住所、連絡先番号、電子メールやその他の基本情報などです。iダウンページで検索した結果は1300件以上もあります。

Webサイトからデータをスクレイピングしたいなら、以前からPythonやRubyなどのプログラミングスキルが必要です。しかし、そういう専門知識がない田中さんにとって、データ取得を外注するか、またはコピペで手作業するしかできなかったですね。しかし、どちらもコストや人件費がかかりそうですので、田中さんはすごく困っているようです。

Octoparseで営業リストを作成する

まずOctoparseをダウンロードして起動します。

1) 「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く

ア. 「カスタマイズモード」を選択し、タスクを作ります。 自由度の高い「カスタマイズモード」は、ご自由にタスクを作り、複雑なウェブサイトにも対応できます。
01-octoparse.png
イ. iダウンページで田中さんの希望条件(大阪府、自動車修理のお店・施設)を絞り込んで得た次のURLをOctoparseに入力します。(各店・施設の詳細ページの構造がそれぞれなので、今回は基本情報があるリストページからデータを収集します。)
https://itp.ne.jp/osaka/genre_dir/1227/?ngr=1&nad=1&sr=1
02-URLを入力.png

2) ページ遷移のループを作る - 複数のページからデータを取得する

ア. ページの下にある「次へ」ボタンをクリックし、「操作ヒント」パネルから「選択したリンクをループクリップする」を選択します。ページを巡回で渡る「ページネーション」が自動生成されます。
03-ページネーション.png
イ.2ページ目に渡ってから、「ページネーション」のXpathがページ数「10」のところを間違えて指定していることから、システムで生成されたXpathは間違ったことがわかりました。
04-XPATH間違い.png
ウ.「ページネーション」オプションを左クリックして、「単一要素」の入力ボックスに以下の正しいXpathを入力します。
//*[text()='次へ']
05-xpathを変える.png

3) ループアイテムを作る- 抽出したいデータを選択する

ア.先ほどの操作で、内蔵ブラウザは2ページ目に移動しました。ですから、「Webページを開く」をクリックして1ページ目に戻ります。
これから「ページネーション」内でループアイテムを作るので、「ページネーション」もクリックしまます。(クリックしないと、「ページネーション」の下に次のオプションが作成される)
06-1ページに戻る.png

イ. 先のリストとなるページで、広告リストを除いて最初からアイテムにマウスを移動すると、青色の枠に囲まれるようになる時に左クリックします。
07-アイテムを選択.png
ウ. Octoparseはページ内の同じフォーマットとなるデータが自動的に識別できますので、2番目のアイテムも同じように選択します。
08-選択された後.png

エ.「操作ヒント」にある「すべてのサブ要素を選択する」、「すべて選択」と「選択したデータを抽出する」を順番にクリックします。
10-サブ要素を選択.png
すべて選択
11-すべて選択.png
12-データを抽出.png
オ. ワークフローで「データを抽出する」オプションを含む「ループアイテム」が自動的に生成されました。
12-ループアイテム.png

4)データカスタマイズ - データを削除・編集する

ア. 不要なフィールドを削除します。
13-データ削除.png
イ. 必要に応じて、フィールド名を編集します。
14-データ編集.png
ウ. 抽出されたデータにすべても同じ必要でない文字が入ってしまうことがあります。たとえば、ここのすべての「住所」データ行に「住所、地図・ナビ」の文字が入っています。必要でない文字を削除する正規表現ツールを使います。
15-正規表現.gif
「住所」データを選択し、「データフィールドをカスタマイズする」をクリックします。
「抽出データを再フォーマットする」と「ステップを追加する」を選択し、「置き換える」をクリックします。
「置き換える」に 「住所」を入力、「計算する」をクリックします。
「OK」をクリックします。
「地図・ナビ」も同じように削除できます。

5) 抽出タスクを始める - タスクの実行を行いデータを取得する

ア. 「保存する」、「抽出開始」と「ローカル抽出」をクリックします。
16-データ抽出.png
イ. データが抽出された後、ご希望の形式でエクスポートすることができます。
17-data.png

同じ方法を使用して、TwitterInstagramなどのソーシャルメディア、IndeedリクナビNEXTなどの求人サイトから同じように営業リスト作成に必要な情報をスクレイピングすることができます。 可能性が高い見込み顧客をどこから入手するかを決めてから、Octoparseを利用して営業リストを作成するにはとても簡単なことになります。スケジュール設定によって、毎日/毎週/毎月営業リスト作成の作業を自動化することができます!今からスクレイピングしたいWebサイトは何でしょうか?

2
Help us understand the problem. What is going on with this article?
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Octoparse_Japan
Octoparseは、視覚的に分かりやすくWebサイトからデータを自動で取得できる無料Webスクレイピングツール/Webクローラーです。コードを書くことなく、スクレイピングの初心者でも、Webサイトから大量の情報を手軽に抽出できます。ビジネスシーンにあわせて、CSV、EXCEL、HTML、JSON、データベース(MySQL、SQL Server、Oracle)などさまざまな出力形式があります。
octoparse_inc
Octoparseは、視覚的に分かりやすくWebスクレイピングツールで、コードを書くことなく、Webサイトから大量の情報を手軽に抽出できます。

Comments

No comments
Sign up for free and join this conversation.
Sign Up
If you already have a Qiita account Login
2
Help us understand the problem. What is going on with this article?