0
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

PythonのライブラリでHTMLのスクレイピングをしてみる

Last updated at Posted at 2020-06-07

Beautiful Soup

Beautiful Soupとは

覚えやすいシンプルなAPIが特徴のスクレイピングライブラリです。

公式

from urllib.parse import urljoin
from bs4 import BeautifulSoup

#HTMLファイルを読み込む
with open('htmlファイル') as f:
   soup = BeautifulSoup(f, 'html.parser')

# 取得したい要素のリストをselectで取得する
for a in soup.select(要素
#取得したい要素を引き出す

pyquery

pyqueryとは

pyqueryはjQueryと同じような使い方でHTMLからスクレイピングできるライブラリ。内部的にlxmlを使用しており、高速に処理できる。

公式

from pyquery import PyQuery as pq

# HTMLファイルを読み込んでPyQueryオブジェクトを得る
d = pq(filename='htmlファイル')

# 取得したい要素のリストを取得する
for a in d(要素:
#取得したい要素を引き出す

参考

Pythonクローリング&スクレイピング

0
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?