5
6

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

まだ知らない?Webクローラーのあれこれ

Last updated at Posted at 2018-07-11

qual-o-melhor-curso-de-marketing-digital-online.jpg

マーケティング、SEOを担当されている方ならWebクローラーやクローリングといった言葉をよく耳にするのではないでしょうか。今回はそんなWebクローラーに関する基礎知識について紹介します。

Webクローラーとは?

Webクローラーとはインターネット上に公開されているテキスト・画像・動画などの情報を自動で収集し、データベースに保管するプログラムのことです。「ボット(Bot)」、「スパイダー」、「ロボット」などとも呼ばれます。

Webクローラーの種類&機能

1.検索エンジン用クローラ

サイトを巡回して、そのサイト内の文字や画像を収集して、検索用元データとして蓄積するためのクローラです。これはもっとも知れている利用方法です。

著名な検索エンジンのクローラーは以下の通りです。
Googlebot(Google)
Bingbot(マイクロソフトが運営するbing)
Yahoo Slurp(日本以外のYahoo!)
Baiduspider(百度)
Yetibot(Naver)

2.定点観測用クローラ

定点観測と言えば、決まったサイトの、決まったページのみを定期的に巡回して、サイトの新着情報、更新情報を取得するためのクローラです。例えば、複数の価格サイトから、商品ごとの価格データを取得ことで、毎週の価格変動を分析し、価格、価格増減等をまとめた販売戦略資料を自動作成できます。ここでは、「Octoparse」というWebクローラーツールがあります。Octoparseの有料版だと、スケジュールを設定でき、定期的にクローリングを実行できます。無料版だと、スゲージュルに制限がありますが、十分すぎるくらいの機能があります。無料版と有料版の違いについては、料金表を参照してみてください。

3.SEO対策クローラ

SEOにおいて、クローラーはページをインデックスすることで、検索結果にページを表示させるという役割があります。なので、クローラーがサイト内のどのページを読み込んでいるかについては、SEO対策において改善策を練るための指針の1つになります。「Google Search Console」というGoogleが提供している無料ツールがあります。このツールを用いることで、クローラーの行動に関して詳細な情報を入手することが可能です。

Webクローラーを活用する場合の注意点

「岡崎図書館事件」を聞いたことがありますか?岡崎市立中央図書館Webサイトから新着図書データを自動で取得するプログラムを実行し、同サイトの一部機能を利用できない状態にしたため、利用者の一人が逮捕された事件です。

「Webクローラー」を活用することで、事業、営業、マーケティングを効率的に進めることができるようになります。でも、Webクローラーを運用するには、注意すべき点があります。

複数のページから情報を抜き出す場合に、連続アクセスするとWebサーバーに負荷をかけてることになります。その場合クロールされる側の迷惑になったり、DoS攻撃(サーバーに過剰な負荷をかけてサービスを妨害する攻撃)とみなされることがあります。

ですから、サーバーにあまり大きな負荷をかけないこと、不必要なアクションをトリガーしないこと、またそのWebサイトを適切な間隔で繰り返しクロールできるようにすることが重要です。

5
6
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
6

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?