More than 3 years have passed since last update.

Pythonでスクレイピングのルール(robots.txt)をチェックするツールを作る

Last updated at 2021-01-13Posted at 2021-01-13

はじめに

スクレイピングを始めるにあたって、一番に気を付けるべきことは法律やルール（明示的なモノや暗黙的なモノも含む）を遵守することである。スクレイピングは、非常に便利であるがゆえにこのようなルールは割と蔑ろにされがち（特に初心者）であると思う。
今回はスクレイピングのルールに関しての記事ではないので、それらについては下記の記事を参考にされたい。

参考記事

Webスクレイピングの注意事項一覧 - Qiita

robots.txtについて

ルールについては触れないとは言うものの、記事の題材でもあるrobots.txtについては簡単に触れておく。
robots.txtとは、スクレイピングを行うプログラムに対しての指示が書いてある文書である。robots.txtは慣習的にはURLの直下に置かれるが、これは別に義務ではないので、そもそも配置されていないケースもある。例えば、Qiitaであればこちらに配置されている。

Qiitaのrobots.txt

User-agent: *
Disallow: /*/edit$
Disallow: /api/*
Allow:    /api/*/docs$

上記のQiitaのrobots.txtを参考にして軽く解説をするが、User-Agentというのは対象となるクローラーの種類を表す。*は全員に対する指示である。次にAllow / Disallowは、指定されたパスへのクロールの許可もしくは禁止を表す。上の例であれば、https://qiita.com/api/*はクロール禁止だが、https://qiita.com/api/*/docs$は許可されていることがわかる。また、サイトによってはCrawl-delayが設定されていることもあるが、設定されていない場合でも暗黙の了解として、次のリクエストまで1秒間空けることが望ましい。
もっと詳細にrobots.txtについての仕様を知りたい方は、こちらを参照されるといい。

プログラム作成

Step 1. robots.txtの読み取り

pythonの標準ライブラリのurllibには、robots.txtを読み取るためのurllib.robotparserが提供されている。今回はこれを利用して、プログラムを作成する。
urllib.robotparserについては、こちらを参照。

import urllib.robotparser

# robots.txtの読み取り
robots_txt_url = 'https://qiita.com/robots.txt'
rp = urllib.robotparser.RobotFileParser()
rp.set_url(robots_txt_url)
rp.read()

# robots.txtの情報から調査したいURL、User-Agentでクロール可能かを調べる
user_agent = '*'
url = 'https://qiita.com/api/*'
result = rp.can_fetch(user_agent, url)
print(result)

実行結果

False

上記のプログラムでは、まずRobotFileParserオブジェクトを作り、set_url関数でrobots.txtのURLを指定、それを元にreadで読み取りを行う。次に、調査したいUser-Agent、URLをcan_fetch関数に与えることでアクセスが許可されているかどうかが真偽値で取得できる。上記のプログラムでは、先程確認した通りhttps://qiita.com/api/*へのクロールは許可されていないので、Falseが出力されている。

Step 2. 正規表現を用いたrobots.txtのリンクの取得

プログラムの根幹となる部分は、ほとんどStep1で終了しているが、これではライブラリの機能を利用しただけで、プログラムとして有用なものではない。そこで正規表現を用いて、robots.txtのリンクを自動生成したいと思う。とは言っても、あまりイメージが湧かないと思うので、具体的な例を用いて説明する。
例えば、クロールが許可されているか調べたいURLがhttps://qiita.com/api/*であるとすると、このURLを元にhttps://qiita.com/robots.txtというリンクを生成するという事である。これは先程も述べた通りrobots.txtは慣習的にサイトの直下に配置されているので、https://qiita.com/api/*からhttps://qiita.comの部分を抽出できれば、そこに/robots.txtの文字を足すだけでリンクを作成することができる。
pythonの正規表現reについては、こちらを参照されるといい。

import re

# 正規表現によりサイトのURLを取得
def get_root_url(url):
    pattern = r'(?P<root>https?://.*?)\/.*'
    result = re.match(pattern, url)
    if result is not None:
        return result.group('root')

# サイトのURLからrobots.txtのURLを生成
def get_robots_txt_path(root_url):
    return root_url + '/robots.txt'

url = 'https://qiita.com/api/*'
root_url = get_root_url(url)
robots_txt_url = get_robots_txt_path(root_url)
print(f'ROOT URL -> {root_url}')
print(f'ROBOTS.TXT URL -> {robots_txt_url}')

実行結果

ROOT URL -> https://qiita.com
ROBOTS.TXT URL -> https://qiita.com/robots.txt

Step 3. 機能を追加してまとめる

Step1, Step2を元にurllib.robotparserの機能を用いて、Crawl-Delayを取得するなどの機能を追加し、関数などをクラス化してまとめる。ここにコードを置いてもいいのだが、微妙に長いためGitHubに置いておく。60行程度なので、内容を確認したい方はどうぞ。
※GitHubのコードでimportされているcoloramaというライブラリは、ターミナルで文字を着色するために使っているものなので、特に機能に重要なものではない。

参考記事

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up