More than 5 years have passed since last update.

scrapyでスクレイピング。spiderをscrapinghubで管理

Posted at 2019-10-01

スクレイピングの管理

みなさん、スクレイピングの管理はどのようにしていますか。
自分でサーバで立ち上げたり面倒な作業がいらない方法をご紹介します。

scrapyでスクレイピングする部分を作成する。

プロジェクトの作成

pip install scrapy
scrapy startproject yahoo_scrapy
cd yahoo_scrapy
scrapy genspider yahoo yahoo.co.jp

spiderの作成（スクレイピング部分）

cd yahoo_scrapy
scrapy genspider yahoo yahoo.co.jp

yahoo_scrapy/items.py

class YahooScrapyItem(scrapy.Item):
    link = scrapy.Field()

yahoo_scrapy/spiders/yahoo.py

# -*- coding: utf-8 -*-
import scrapy

from ..items import YahooScrapyItem


class YahooSpider(scrapy.Spider):
    name = 'yahoo'
    allowed_domains = ['yahoo.co.jp']
    start_urls = ['http://yahoo.co.jp/']

    def parse(self, response):
        for sel in response.css("a"):
            article = YahooScrapyItem()
            article['link'] = sel.css('a::attr(href)').extract_first()
            yield article