##使ってみた
pip install beautifulsoup4
でインストール
パーサー?なるものはデフォルトでいいかなと思って、lxml
とかは使わずデフォルトで備わっているhtml.parser
を用いた。
import requests
from bs4 import BeautifulSoup
url = input()
html = requests.get(url)
soup = BeautifulSoup(html.content, "html.parser")
基本はこれで良いはず。
###検索
・id検索(検索できるものは一つ
soup.find(id="id名")
・css selector検索(検索できるものは一つ
ing.select_one("css selector名")
検索に一致する全ての要素を見つける時は
idなら
find_all(id名)
css selectorなら
select(.class属性名)
参照:[Beautiful Soup のfind_all( ) と select( ) の使い方の違い]
(https://gammasoft.jp/blog/difference-find-and-select-in-beautiful-soup-of-python/)
<h3 class="A B">
のような(class属性を複数持っている)物をselectで検索する時はselect_one(.A.B)
をする。
###参考にしたサイトのURL
cssセレクタについて
タグ検索とcssセレクタ検索の例が載っている
##追記
###前方一致、後方一致、部分一致(20/09/12)
前方, 後方, 部分一致セレクタ