#概要
- PJDV 5.7~5.7.1、PJDV 5.7.3の続き。
- O'Reilly Japan - PythonとJavaScriptではじめるデータビジュアライゼーション(PJDV)の勉強用
- PJDVではXPathの説明があまりないので、XPath基本事項の記事を紹介します。
- 次回、scrapy shellを使い、PJDV 6.4「最初のScrapyスパイダー」(nwinners_list_spider.py)のXPathを具体的に見ていきます。
#XPath基本事項
-
クローラ作成に必須!XPATHの記法まとめ - Qiita
- 一番最初に読むべき記事
その他、参考にした記事。XML向け(タグが自由に定義できる)なことに注意。
- ロケーションパス (2) - TECHSCORE
-
XPathを使ってみよう- XMLDB.JP
-
ロケーションパス=軸::ノードテスト
となっているけど、ロケーションステップ=軸::ノードテスト
がいいような。
-
- XPath使いのための日本語チートシート-pearl-whiteのホームページ
#最初のScrapyスパイダー(nwinners_list_spider.py)
##コード
nwinners_list_spider.py
書籍に誤植があり、githubで修正されているようです。
誤_nwinners_list_spider.py(PJDV_p145)
country = h2.xpath('span[@class="mw-headline"]'\
'text()').extract()
正_nwinners_list_spider.py(github)
country = h2.xpath('span[@class="mw-headline"]/text()')\
.extract()
##XPath記述箇所
h2s = response.xpath('//h2')
country = h2.xpath('span[@class="mw-headline"]/text()').extract()
winners = h2.xpath('following-sibling::ol[1]')
for w in winners.xpath('li'):
text = w.xpath('descendant-or-self::text()').extract()
#参考