pythonでのスクレイピングツールbeautiful soupを使うときの使い方についてまとめました。
スクレイピングって地味によく使うんですよね...
最初のhtml parserの処理
uClient = urllib.request.urlopen(doctor_site)
page_html = uClient.read()
uClient.close()
page_soup = soup(page_html, "html.parser")
タグでの検索(最初に一致したもの)
page_soup.h1
タグでの検索(複数検索)
findAll("h1")
タグ&クラス名での検索(複数検索)
page_soup.findAll("meta",{"name":"description"})
クラスの取得
page_soup.h1.attrs['class']
他に何かあったら適宜追加していきます。
あと、beautiful soupって書き方が色々あったりするから、注意。