lxml.etreeモジュールを使う
import lxml.etree
#ファイルを読み込む
tree = lxml.etree.parse('rss2.xml')
#getroot()メソッドでXMLのルート要素い対応する
root = tree.getroot()
#xpath()メソッドでXPathにマッチする要素をリストを取得
for item in room.xpath('要素を階層で指定'):
#取得したいデータを指定し、取得
feedparserを使う
RSSのフォーマットを意識せずにスクレイピングできる。RSSフィードには、RSS1.0, RSS2.0,Atomなど複数フォーマットがあって、めんどくさいので、おすすめ。
Dockerのタグがついたqiitaの記事を取得
import feedparser
d = feedparser.parse('https://qiita.com/tags/docker/feed')
for entry in d.entries:
print(entry.link, entry.title)
とっても簡単なので、、、。定期実行して、自分用のRSSリーダー作れそう。。