Scrapy de Redis

Posted at 2016-12-12

ScrapyでRedisを使う場合に
Scrapy-Redisが有名です。

どうRedisが使われているかを少し書きます。

リクエストのキューと重複チェックのリストがRedisに格納されます。

リクエストのキュー

Parameters込みのURLが並んでいます。
Request objects

「[spider name]:dupefilter」という名前のset型

重複するrequestsを排除するためにfingerprint(Hash値?)を持っています。

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

という設定でSchedulerがRedisを使います。

なんらかの原因でScrapyが止まってしまっても、
リクエストのキューが残っていれば、そこから再開され、
重複チェックのリストもあれば、
既にクロールしたURLにはアクセスせずに続けることができます。