python画像データのスクレイピングについて
画像データのスクレイピングにて、次からは失敗したくないと感じた点について記載しています。
画像データのスクレイピングについて参考にしたurlは下記のものです。
url:http://su-gi-rx.com/2017/11/06/scraping-picture/
・with open('img/' + target.split('/')[-1], 'wb') as f: # imgフォルダに格納
python openモジュールのfilename記載方法について
このように記載するコードがあるが、'img/' + target.split('/')[-1] において、
filename = 'img/'と考えていた。
+ target.split('/')[-1]は一体何を記載しているのだろうかと。。。
しかし基礎を振り返ってみると,文字列のtargetは変数名でありただ、+で文字列と文字列が格納されている変数を結んでいるだけだと納得。
また、filenameに「img/」のように記載すると、imgディレクトリがあった場合はその下にファイルが入るtことに気づいた。これは調べたけれど記述があるページを見つけることができなかった。
htmlタグの記載について
imgタグないをみるとformatというところがある、そこでjpgと記載があるとおり、どの拡張子を選択すれば良いのか記載があるため、取得してきたもののファイル名の最後に「.jpg」を付け足す必要あり。
urllib3ライブラリのバイナリーデータについて
参考にしたサイトではrequestsライブラリを使用しているが、自分はurllib3を使用したため、httpレスポンス.dataでバイナリーデータとして取得することができる。
画像ファイルなどはバイナリーデータなのでこのようにテキストデータではなく、バイナリーデータに変換する必要がある。
今回のスクレイピング対象サイト
URl:https://matome.naver.jp/odai/2134591269077742301