0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

PythonでWebページからデータを抜き出す

Last updated at Posted at 2020-06-07

webページからデータを取得する方法は
こちら

正規表現でWebページからデータを抜き出す

標準ライブラリのreモジュールを使う。
公式ドキュメント

import re
from html import unescape
from urllib.parse import urljoin

# Webページからhtmlデータを取得

for partial_html in re.findall(正規表現:
# 取得した情報から、特定の情報を正規表現で取得
# 正規表現では、re.search()をする

lxmlでWebページからデータを抜き出す

lxmlとは

C言語で書かれたXML処理の著名なライブラリであるlibxml2とlibxsltのPythonパインディング。
公式ドキュメント

import lxml.html

a = htmlをファイルを読み込み
html = a.getroot()

#引数のURLを基準として、全てのa要素をhref属性を絶対URLに変換する
html.make_link_absolute(URL)

for b in html.cssselect(CSSセレクタで要素を指定):
# 要素を取得

RSSでデータを取得する

import lxml.html

a = htmlをファイルを読み込み
html = a.getroot()

#引数のURLを基準として、全てのa要素をhref属性を絶対URLに変換する
html.make_link_absolute(URL)

for b in html.cssselect(CSSセレクタで要素を指定):
# 要素を取得

参考

Pythonクローリング&スクレイピング

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?