今度はWebスクレイピングに挑戦してみます。
調べたことをメモ。
参考;https://tonari-it.com/python-html-get-text-attr/
Webスクレイピングの基本形
# requests, bs4はあらかじめインストールしてね
# pip install request
# pip install beautifulsoup4
import requests, bs4
res = requests.get('https://tonari-it.com')
res.raise_for_status()
soup = bs4.BeautifulSoup(res.text, "html.parser")
print(soup.title)
テキスト、属性の取得
import requests, bs4
res = requests.get('https://tonari-it.com')
res.raise_for_status()
soup = bs4.BeautifulSoup(res.text, "html.parser")
elems = soup.select('#list h2 a')
for elem in elems:
print('{} ({})'.format(elem.getText(), elem.get('href')))
Basic認証のあるページ
以下のようにrequests.getの後ろに追加すればよい
python
res = requests.get('スクレイピングしたいページのURL',auth=('ID','PASS'))
その他、Webスクレイピングについて
↓の記事が充実している
https://vaaaaaanquish.hatenablog.com/entry/2017/06/25/202924#requests