More than 5 years have passed since last update.

PythonでWebスクレイピングしてみたときのまとめ

Posted at 2019-07-06

今度はWebスクレイピングに挑戦してみます。
調べたことをメモ。

参考；https://tonari-it.com/python-html-get-text-attr/

Webスクレイピングの基本形

# requests, bs4はあらかじめインストールしてね
# pip install request
# pip install beautifulsoup4

import requests, bs4
res = requests.get('https://tonari-it.com')
res.raise_for_status()
soup = bs4.BeautifulSoup(res.text, "html.parser")
print(soup.title)

テキスト、属性の取得

import requests, bs4
res = requests.get('https://tonari-it.com')
res.raise_for_status()
soup = bs4.BeautifulSoup(res.text, "html.parser")
elems = soup.select('#list h2 a')
for elem in elems:
    print('{} ({})'.format(elem.getText(), elem.get('href')))

Basic認証のあるページ

以下のようにrequests.getの後ろに追加すればよい

res = requests.get('スクレイピングしたいページのURL',auth=('ID','PASS'))

その他、Webスクレイピングについて

↓の記事が充実している
https://vaaaaaanquish.hatenablog.com/entry/2017/06/25/202924#requests

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up