More than 5 years have passed since last update.

Scrapyでノーベル章受賞者の情報を取得する(PJDV 6.4章) - XPath

Last updated at 2018-04-06Posted at 2018-04-02

概要

PJDV 5.7～5.7.1、PJDV 5.7.3の続き。
O'Reilly Japan - PythonとJavaScriptではじめるデータビジュアライゼーション(PJDV)の勉強用
PJDVではXPathの説明があまりないので、XPath基本事項の記事を紹介します。
次回、scrapy shellを使い、PJDV 6.4「最初のScrapyスパイダー」(nwinners_list_spider.py)のXPathを具体的に見ていきます。

その他、参考にした記事。XML向け(タグが自由に定義できる)なことに注意。

書籍に誤植があり、githubで修正されているようです。

誤_nwinners_list_spider.py(PJDV_p145)

            country = h2.xpath('span[@class="mw-headline"]'\
            'text()').extract()

正_nwinners_list_spider.py(github)

            country = h2.xpath('span[@class="mw-headline"]/text()')\
            .extract()

h2s = response.xpath('//h2')

country = h2.xpath('span[@class="mw-headline"]/text()').extract()

winners = h2.xpath('following-sibling::ol[1]')

for w in winners.xpath('li'):

text = w.xpath('descendant-or-self::text()').extract()