Beautiful Soup
Beautiful Soupとは
覚えやすいシンプルなAPIが特徴のスクレイピングライブラリです。
from urllib.parse import urljoin
from bs4 import BeautifulSoup
#HTMLファイルを読み込む
with open('htmlファイル') as f:
soup = BeautifulSoup(f, 'html.parser')
# 取得したい要素のリストをselectで取得する
for a in soup.select(要素)
#取得したい要素を引き出す
pyquery
pyqueryとは
pyqueryはjQueryと同じような使い方でHTMLからスクレイピングできるライブラリ。内部的にlxmlを使用しており、高速に処理できる。
from pyquery import PyQuery as pq
# HTMLファイルを読み込んでPyQueryオブジェクトを得る
d = pq(filename='htmlファイル')
# 取得したい要素のリストを取得する
for a in d(要素):
#取得したい要素を引き出す