134
153

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

元記事:https://www.octoparse.jp/blog/top-20-web-crawling-tools-for-extracting-web-data/

今では、Webクローリング(Webスクレイピングとも呼ばれる)は多くの分野で広く適用されています。これは、任意のWebサイトから取得されたデータを簡単にアクセスできるようにデータベースに保管することを目的としています。Webクローラーツールは、クローリングプロセスを簡単、自動化にし、Webデータリソースを誰でも簡単に利用できるようにするため、 広く知られています。Webクローラツールを使用すると、コピペをしなくなり、データ収集が自動化になります。さらに、Webクローラー使うと、コードを書く必要がなく、ネット上の情報を速くスクレイピングでき、構造化データに変換できます。

以前、Webクローラーに関する基礎知識について紹介しましたので、今回の記事では、WEB上で人気のあるトップ20のWebクローラーツールを紹介したいと思います。

#1. Octoparse
Octoparseは、どんなWEBサイト上のデータも手軽に抽出することができる強力な無料Webクローラーです。Octoparseには、Webスクレイピングテンプレートといは非常にシンプルで強力な機能が備え、テンプレートを使うと、プログラミング知識の少ない/ない人でも簡単にWebスクレイピングを達成できます。具体的には、Octoparseのソフトには数十種類のあらかじめ作成されたテンプレートがあり、パラメータ(ターゲットWebサイトのURL、検索キーワードなど)を入力するだけで、データが抽出されてきます。このフリーツールをダウンロードした後、マウスクリックで簡単にデータを抽出できます。取得したコンテンツをダウンロードし、CSV、Excel、またはデータベースなどの構造化フォーマットとして保存できます。

それに、クラウド型プラットフォームも提供するので、スケジュール設定が可能で、自動取得したデータはクラウドに保存され、どこでもアクセスできます。ハードウェア保守も不要だし、ネットワーク中断に心配する必要もありません。IPが自動的に巡回できるので、アクセス拒否を効果的に避けられます。

また、内蔵Regexツールを使って、多くの複雑なWebサイトからデータを抽出でき、XPathツールを使ってWeb要素を正しく見つけることができます。

要するに、基本的なものでもハイエンドなものでも、Octoparseはユーザーのほとんどのクローリングニーズを満たすことができるはずです。

#2. Cyotek WebCopy

WebCopyは無料なWebクローラーで、部分的または完全なWEBサイトをハードディスクにコピーしてオフラインでアクセスできます。

WEBサイトのコンテンツをハードディスクにダウンロードする前に、指定されたWEBサイトをスキャンし、ローカルパスと一致するようにサイト内の画像やテキストようなリソースへのリンクを自動的に再マップすします。

上記のルールに加えて、ドメインエイリアス、ユーザーエージェント文字列、デフォルトドキュメントなどを設定することもできます。

ただし、WebCopyには仮想DOMやJavaScript解析のフォームは含まれていません。WEBサイトでJavaScriptを頻繁に使用して操作する場合、JavaScriptが動的にリンクを生成し、WEBサイトのすべてを検出できなくなり、WebCopyは本当のコピーを作成することはできません。

#3.HTTrack
HTTrackは、Webクローラーのフリーツールとして、インターネットからWEBサイト全体をPCにダウンロードするのに適した機能を提供しています。Windows、Linux、Sun Solaris、および他のUnixシステムで使用できるバージョンを提供しています。1つのサイトまたは複数のサイトを共有リンクで共有することができます。「オプションの設定」でWebページをダウンロードするときに同時に開くページ数を決めることができます。ディレクトリ全体から写真、ファイル、HTMLコードを取得し、現在のミラーリングされたWebサイトを更新し、中断されたダウンロードを再開することができます。

さらに、スピードを最大化するためにHTTTrackでプロキシサポートを利用できます。HTTrackはコマンドラインプログラムとして、プライベート(スクレイピング)またはプロフェッショナル(オンラインのWebミラー)の両方のシェル用に動作します。なので、HTTrackは、高度なプログラミングスキルを持つ人にとってはいい選択肢です。

#4.Getleft
Getleftは、Webサイトをスクレイピングできる、無料Webクローラーです。使いやすいインターフェースと複数のオプションを備えて、Webサイト全体をダウンロードできます。Getleftには、ダウンロードする前に取得するサイトの一覧表を表示する機能があり、不要なサイトをあらかじめ除外できるという便利さがあります。ダウンロードしたページは、相対リンクに変更されるので、オフラインでのブラウズが容易です。それに、多言語サポートを提供し、現在Getleftは14種の言語をサポートしています。再帰的には実行されません。

Getleftは、フリーのWebクローラーツールとして、より複雑なスキルを必要とせず、基本的なクローリングニーズを満たす便利なソフトです。 

#5. Scraper
ScraperはWebデータを手軽に取得できるChrome拡張機能で、オンライン調査やGoogleスプレッドシートへのデータエクスポートに役立ちます。これでWEB上のデータを、エクセルやスプレッドシートに保存でき、データ収集の手間がかなり省けます。Scraperは無料のWebクローラーで、ブラウザでよく機能し、クローリングするURLを定義するためのXPathを自動生成します。データ抽出機能が限られていますが、スクレイピングの知識がない初心者にとっては使いやすいツールです。

#6. OutWit Hub
OutWit Hubは、Webデータ抽出機能を備えたFirefox向けのアドオンで、Web検索を簡単にさせます。このWebクローラーは、表示中のWebページの詳細をパーツ毎に一覧で表示、必要なパーツをローカルに簡単にダウンロードできます。

OutWit Hubは、ニーズに応じて、大量のデータをスクレイピングできる単一のインターフェイスを提供します。OutWit Hubを使うと、ブラウザ自体から任意のWebページをスクレイピングしたり、自動エージェントを作成してデータを抽出したり、設定によってフォーマットすることさえできます。

これは、最も簡単なWebスクレイピングツールの1つで、無料だし、コードを書くことなくWebデータを抽出できます。

#7. ParseHub
Parsehubは、AJAX、JavaScript、リダイレクト、およびCookieを使用するサイトからの複雑なデータ抽出をサポートする優れたWebクローラーです。Web上の文書を読み込んで解析し、関連するデータを出力できる機械学習技術を備えています。

ParsehubはWindows、Mac OS X、Linuxなどのデスクトップクライアントとして利用でき、ブラウザ内に組み込まれているWebアプリケーションを使用することもできます。

無料ツールとしてParsehubにプロジェクトを5つしか設定できません。

#8. Visual Scraper
VisualScraperは、ユーザーフレンドリーなインターフェースを備えた、無料のWebクローラーです。コードを書くことなく、Webからデータを簡単に収集できます。複数のWebページからリアルタイムデータを取得し、抽出したデータをCSV、XML、JSONまたはSQLファイルとしてエクスポートできます。SaaSに加えて、VisualScraperはデータ配信サービスや抽出ソフトウェアの作成などのWebスクレイピングサービスを提供しています。

Visual Scraperを使うと、ユーザーは特定の時間に実行されるようにプロジェクトをスケジュールしたり、分、日、週、月、年ごとにスクレイピングを繰り返すことができます。

#9. Scrapinghub
Scrapinghubは、クラウドベースのデータ抽出ツールであり、開発者が貴重なデータを取得するのに役立ちます。オープンソースのビジュアルWebクローラーツールは、ユーザがプログラミングの知識なしにWebサイトをスクレイピングすることを可能にします。

Scrapinghubは、巨大なまたはボットで保護されたサイトを簡単にクローリングできるボット対策をバイパスすることをサポートする、スマートなプロキシローテータであるCrawleraを使用しています。これにより、ユーザーは単純なHTTP APIの代わり、複数のIPと場所からスクレイピングできます。

ScrapinghubはWebページ全体を構造化されたコンテンツに変換します。このツールが要件を満たすことができない場合、専門家チームを利用できます。

#10. Dexi.io
Dexi.ioは、ダウンロードを必要としないWebベースのスクレイピングツールです。ブラウザベースのWebクローラーツールとして、クローラを設定してリアルタイムでデータを取得できます。スクレイピングタスクを作成する3種類のロボット(抽出ツール、クローラー、パイプ)を提供できます。

Dexi.ioには、スクレイピングしたデータをGoogleドライブに直接保存したり、JSONやCSVファイルとしてエクスポートする機能もあります。また、プロキシサーバーを使って匿名でデータをスクレイピングすることもサポートしています。収集したデータは、アーカイブされる前に最大2週間、サーバー上でホストされます。リアルタイムデータを取得するためのニーズに合わせて有料サービスを提供します。

#11. Webhose.io
Webhose.ioはWebサイトからさまざまなリアルタイムデータを取得できるWebクローラーです。このツールにより、さまざまなソースをカバーする複数のフィルタを使用でき、取得したデータからキーワードをさらに抽出できます。

また、スクレイピングしたデータをExcel、XML、JSON、RSS形式で保存でき、アーカイブから履歴データにアクセスすることができます。さらに、webhose.ioは取得したデータを最大80種言語でサポートし、データの検索も簡単にします。

とにかく、Webhose.ioはユーザーの基本的なクローリング要件を満たすことができます。

#12. Import. io
Import. IoはURLを入力するだけでデータの抽出ができるツールです。コードを書くことなく数千のWebページを簡単にスクレイピングでき、要件に基づいて1000以上のAPIを構築できます。クラドベースのサービスであるため、ソフトウェアなどのダウンロードやインストールは一切必要ありません。ページのURLを入力すると、自動でデータ箇所を判断して情報を集めてくれます。

もちろんWindows、Mac、Linuxで使えるスクレイピング用のアプリも用意されています。スクレイピングの終了後、Csv/Json形式でデータをダウンロードできます。さらに、毎週、毎日、毎時のクロール作業をスケジュールできます。

現在、無料版は利用できなくなっているようで、最低利用金額は$299からです。

#13. 80legs
80legsは、カスタマイズされた要件に基づいて設定できる強力なWebクローラーツールです。膨大な量のデータを取り込むことができ、抽出されたデータを即時にダウンロードするオプションもあります。80legsは、無料からでも利用でき、1回あたり10,000 URLまで取得できる高性能クローリング体験を提供します。

#14.Spinn3r
Spinn3rを使うと、ブログ、ニュース、ソーシャルメディアサイト、RSS&ATOMフィードからデータ全体を取得できます。Spinn3rには、インデックス作成作業の95%を管理するFirehouse APIが付属しています。スパムや不適切な言語の使用を取り除き、データの安全性を向上させる高度なスパム保護機能を提供します。

Spinn3rはGoogleのように、コンテンツを索引付けし、抽出したデータをJSONファイルに保存します。 Webクローラーは度々にWebサイトをスキャンし、複数のソースから更新するのもを見つけてリアルタイムの内容を取得します。管理コンソールではクローリングを制御し、フルテキスト検索では元データを複雑なクエリを作成できます。

#15.Content Grabber
Content Graberは、企業向けのWebクローラーソフトウェアです。単独なWebクローリングエージェントを作成できます。ほぼすべてのWebサイトからコンテンツを抽出し、Excel、XML、CSV、ほとんどのデータベースなどの任意の形式で構造化データとして保存できます。

これは、多くの強力なスクリプト編集、インターフェイスのデバッグを提供するので、高度なプログラミングスキルを持つ人に適しています。ユーザーは、C#またはVB.NETを使用して、スクリプトをデバッグしたり書き込んでクローリングプロセスをプログラミングすることができます。たとえば、Content Grabberは、Visual Studio 2013と統合して、ユーザーの特定のニーズに基づいて、高度で洗練されたカスタマイズされたクローラーに最も強力なスクリプト編集、デバッグ、単体テストをサポートします。

#16. Helium Scraper
Helium Scraperは、要素間の関連が小さい場合にうまく機能する視覚的なWebスクレイピングソフトウェアです。コーディング、配置すること必要がありません。ユーザーはさまざまなクローリングニーズに基づいてオンラインテンプレートにアクセスできます。基本的には、初級レベルのユーザーのクローリングニーズを満たすことができます。

#17. UiPath
UiPath は業務自動化をサポートするロボティックプロセスオートメーション(RPA)ソフトウェアです。 ほとんどのアプリケーションからWebデータとデスクトップデータの抽出を自動化します。Windowsシステムを実行している場合は、ロボティックプロセスオートメーション(RPA)ソフトウェアをインストールできます。Uipathは、複数のWebページにわたって表形式のデータとパターンベースのデータを抽出できます。

Uipathは、さらにクローリングするための組み込みツールを提供しています。このメソッドは、複雑なUIを処理する場合に非常に効果的です。Screen Scraping Toolは、個々のテキストエレメント、テキストグループ、テキストブロック(テーブル形式のデータ抽出など)の両方を処理できます。

さらに、コードを書くことなく、インテリジェントなWebエージェントを作成できますが、.NETハッカーがデータを完全に制御できます。

#18. Scrape. it
Scrape. It はクラウドベースのWebデータ抽出ツールで、Node.jsのスクレイピングソフトです。これは、世界中の何百万という開発者とコードを発見、再利用、更新、共有するための公開パッケージと非公開パッケージの両方を提供しているため、高度なプログラミングスキルを備えた方に向けられています。強力な統合により、ニーズに合わせてカスタマイズされたクローラーを構築することができます。

#19. WebHarvy
WebHarvy はポイントアンドクリック式のスクレイピングツールです。非プログラマのために設計されています。WebHarvyは自動的にWebサイトからのテキスト、イメージ、URL&メールをスクレイピングして、様々なフォーマットで保存します。また、匿名でクローリングを可能にする組み込みスケジューラとプロキシサポートを提供し、WebクローラーがWebサーバによってブロックされるのを防ぎます。プロキシサーバまたはVPN経由でターゲットWebサイトにアクセスするオプションがあります。

WebHarvy現在のバージョンでは、スクレイピングしたデータをXML、CSV、JSONまたはTSVファイルとしてエクスポートでき、SQLデータベースにエクスポートすることもできます。

#20. Connotate
Connotateは企業規模Webデータ抽出用に設計された自動化Webクローラーです。ユーザーは、コードを書くことなく、ポイントアンドクリックだけで抽出エージェントを簡単に作成できます。

Ajaxなどの複雑なJavaScriptベースの動的サイト技術を含む、コーデイングなしでサイトの95%以上を自動的に抽出することができます。さらに、ConnotateはSQLデータベースやMongoDBを含むコンテンツとWebページを統合する機能も提供しています。

#まとめ

Webコンテンツの作成から、大学などの研究機関、情報収集を専門とするアウトソーシング企業まで様々な企業や団体がデータ収集のニーズがあります。上記のWebクローラーは、ほとんどのクローリングニーズを満たすことができますが、これらのツール間ではそれぞれの機能に多くの違いがあります。したがって、大量のデータ取得や解析が必要な場合は、ニーズに合わせて最適なWebクローラーを使ってみると良いでしょう。

134
153
2

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
134
153

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?