Pythonでスクレイピングしたいのでrequestsを入れる


pythonでスクレイピングしたい


とりあえずrequestsを入れる

pythonでスクレイピングする手法はいくつかあるらしい.でもそんなに難しくなくてサクッとできると嬉しい.とりあえず手順としてサイトから情報を取得する必要があるのでrequestsを使えばいい感じにhtmlデータを取得できるらしいのでrequestsをpipから入れる.


pip install requests


とりあえず取得してみる

URLのところに自分の取得したいサイトのURLを入れてやる.


import requests

URL = 'https://twitter.com/_shuft'

response = requests.get(URL)
print(response.text)

この状態では取得したデータがテキストになって大量に吐き出されてしまうので,次の方法でデータを分けて取得する.


データの取捨選択

ライブラリの仕様的に今回でいうとresponse.texttextにあたるところをいい感じに変えるといろいろとデータを取得できる.必要そうなものだけ列挙する.たぶんcontentが一番欲しいと思う.


response.content
response.cookies
response.headers
response.encoding
response.text

適宜beautifulsoupとかに投げて処理していきたい.また別で書くはず,ただほぼほぼ備忘録なのでアレ