webページからデータを取得する方法は
こちら
正規表現でWebページからデータを抜き出す
標準ライブラリのreモジュールを使う。
公式ドキュメント
import re
from html import unescape
from urllib.parse import urljoin
# Webページからhtmlデータを取得
for partial_html in re.findall(正規表現):
# 取得した情報から、特定の情報を正規表現で取得
# 正規表現では、re.search()をする
lxmlでWebページからデータを抜き出す
lxmlとは
C言語で書かれたXML処理の著名なライブラリであるlibxml2とlibxsltのPythonパインディング。
公式ドキュメント
import lxml.html
a = htmlをファイルを読み込み
html = a.getroot()
#引数のURLを基準として、全てのa要素をhref属性を絶対URLに変換する
html.make_link_absolute(URL)
for b in html.cssselect(CSSセレクタで、要素を指定):
# 要素を取得
RSSでデータを取得する
import lxml.html
a = htmlをファイルを読み込み
html = a.getroot()
#引数のURLを基準として、全てのa要素をhref属性を絶対URLに変換する
html.make_link_absolute(URL)
for b in html.cssselect(CSSセレクタで、要素を指定):
# 要素を取得