スクレイピングを今後勉強していこうと思うので、記事を書いていきたいと思います。
基本的に学習記録です。
こちらの本を参考にさせていただきました。
##スクレイピング(Scraping)とは
スクレイピングとは、webサイトから任意の情報を抽出する技術です。
スクレイピングすることにより、web上で情報を自動収集できます。
つまり、効率的に情報を収集できる技術です。
スクレイピングを調べていると、クローリングという言葉がよく出てきます。
では、クローリングとは何か以下にまとめます。
###クローリングとは
クローリングとは、プログラムがwebサイトを定期的に巡回して、
情報をダウンロードする技術のことです。
定期的に巡回することによって、最新情報を検索することが可能です。
#データのダウンロード
##web上の情報を取得する方法
Pythonでは、urllibライブラリを使います。このライブラリを使用すると、HTTPやFTPを利用してデータをダウンロードできます。その中でも、urllib.requestモジュールは、Webサイトにあるデータにアクセスする機能を提供します。
#Webサイトからファイルをダウンロードする方法
import urllib.request
ulr = "(URL)"
savename = "sample.png"
urllib.request.urlretrieve(url,savename)
print("save the image")
*urlretrieve func : 直接ファイルをダウンロードできる。
#クライアントの接続情報を表示してみる
import urllib.request
url = "(URL)"
res = urllib.request.urlopen(url)
data = res.read()
#convert binary to string
text = data.decode("utf-8")
簡単ですが、今回はこのぐらいで
随時、勉強したことをアップしていきます。