More than 3 years have passed since last update.

PythonでWebページからデータを抜き出す

Last updated at 2020-07-05Posted at 2020-06-07

webページからデータを取得する方法は
こちら

正規表現でWebページからデータを抜き出す

標準ライブラリのreモジュールを使う。
公式ドキュメント

import re
from html import unescape
from urllib.parse import urljoin

# Webページからhtmlデータを取得

for partial_html in re.findall(正規表現）:
# 取得した情報から、特定の情報を正規表現で取得
# 正規表現では、re.search()をする

lxmlでWebページからデータを抜き出す

lxmlとは

C言語で書かれたXML処理の著名なライブラリであるlibxml2とlibxsltのPythonパインディング。
公式ドキュメント

import lxml.html

a = htmlをファイルを読み込み
html = a.getroot()

#引数のURLを基準として、全てのa要素をhref属性を絶対URLに変換する
html.make_link_absolute(URL)

for b in html.cssselect(CSSセレクタで、要素を指定):
# 要素を取得

RSSでデータを取得する

import lxml.html

a = htmlをファイルを読み込み
html = a.getroot()

#引数のURLを基準として、全てのa要素をhref属性を絶対URLに変換する
html.make_link_absolute(URL)

for b in html.cssselect(CSSセレクタで、要素を指定):
# 要素を取得

参考

Pythonクローリング&スクレイピング

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up