More than 3 years have passed since last update.

PythonのライブラリでHTMLのスクレイピングをしてみる

Last updated at 2020-07-05Posted at 2020-06-07

Beautiful Soup

Beautiful Soupとは

覚えやすいシンプルなAPIが特徴のスクレイピングライブラリです。

from urllib.parse import urljoin
from bs4 import BeautifulSoup

#HTMLファイルを読み込む
with open('htmlファイル') as f:
   soup = BeautifulSoup(f, 'html.parser')

# 取得したい要素のリストをselectで取得する
for a in soup.select(要素）
#取得したい要素を引き出す

pyquery

pyqueryとは

pyqueryはjQueryと同じような使い方でHTMLからスクレイピングできるライブラリ。内部的にlxmlを使用しており、高速に処理できる。

公式

from pyquery import PyQuery as pq

# HTMLファイルを読み込んでPyQueryオブジェクトを得る
d = pq(filename='htmlファイル')

# 取得したい要素のリストを取得する
for a in d(要素）:
#取得したい要素を引き出す

参考

Pythonクローリング&スクレイピング

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up