Readabilityのインストール
まずはReadabilityとhtml2textをインストール。
pip install readability-lxml
pip install html2text
- Readabilityで本文抽出
- html2textでmarkdown形式に変換し読みやすくする
Readabilityを使う
python.py
# ライブラリをimport
from readability.readability import Document
import urllib.request
import html2text
# 実行
url = "https://flatclub.jp/shinobiwriting/"
html = urllib.request.urlopen(url).read()
# 本文っぽい部分を抽出
article = Document(html).summary()
# htmlからmarkdown形式に変換
text = html2text.html2text(article)
# とりあえずコマンドラインに出力
print(text)
抽出完了。
参考
HTMLから本文抽出。 - ねこゆきのメモ
Python – readability-lxmlを利用して本文抽出|Miningoo