More than 3 years have passed since last update.

Pythonでクローラーを開発するときに気をつけること

Last updated at 2020-06-07Posted at 2020-06-07

クローラーの特性

HTTPはステートレスに設計されたプロトコルです
状態を持ちたい時は、Cookieを使います。
必ずしも、クローラー作成で、Cookieの送受信を実装する必要もない。RequestライブラリのSessionオブジェクトを使う。
また、Refererでも状態を表すことができる。

ログインの実装などに使う。

SPAなどは、HTMLにコンテンツを含まれていない。その場合h、JavaScriptを解釈する必要がある。

などが自動操作ツールとしてあります。

Google botなど

この3つの特性があるが、どのパターンのクローラーであっても以下の点に気をつけた方がいい。

Webサイトの管理者がクローラーに対して特定のページをクロールしないよう指示数ために、robots.txtとrobots metaタグが広く使われている。

robots.txt: Webサイトのトップディレクトリに配置されるテキストファイル
robots metaタグ: クローラーへの指示が記述されている。

urllib.robotparserというPythonのライブラリを使うと、robots.txtの情報を取得できる。

Webサイトの管理者がクローラーに対してクロールして欲しいURLのリストを提示捨ためのXMLファイル。

XMLサイトマップを参照してクロールすると、クロールが必要なページだけで済むので効率的でうす。

User-Agentヘッダーに、任意の文字列を記入して、アクセスする。

ステータスコードによって、エラー処理をかえておくことで、ネットワークエラー（接続できないなど）の場合はリトライするといった処理ができる。