やり方
- lxmlを使えばOK
- beautifulsoup単体ではXpath指定不可
流れ
- beautifulsoupでhtmlをパースして、
- lxmlで変換すると、
- xpath指定できる!
.py
import urllib2
from lxml import html
from bs4 import BeautifulSoup
data = urllib2.urlopen("http://example.com")
soup_parsed_data = BeautifulSoup(data, 'html.parser')
lxml_coverted_data = html.fromstring(str(soup_parsed_data))
# あとはお好きにどうぞ
lxml_coverted_data.xpath('xxx/yyy/...')