LoginSignup
2
3

More than 5 years have passed since last update.

python 画像スクレイピング うっかりポイント

Posted at

python画像データのスクレイピングについて

画像データのスクレイピングにて、次からは失敗したくないと感じた点について記載しています。
画像データのスクレイピングについて参考にしたurlは下記のものです。
url:http://su-gi-rx.com/2017/11/06/scraping-picture/

open
・with open('img/' + target.split('/')[-1], 'wb') as f: # imgフォルダに格納

python openモジュールのfilename記載方法について
このように記載するコードがあるが、'img/' + target.split('/')[-1] において、
filename = 'img/'と考えていた。
+ target.split('/')[-1]は一体何を記載しているのだろうかと。。。

しかし基礎を振り返ってみると,文字列のtargetは変数名でありただ、+で文字列と文字列が格納されている変数を結んでいるだけだと納得。

また、filenameに「img/」のように記載すると、imgディレクトリがあった場合はその下にファイルが入るtことに気づいた。これは調べたけれど記述があるページを見つけることができなかった。

htmlタグの記載について
imgタグないをみるとformatというところがある、そこでjpgと記載があるとおり、どの拡張子を選択すれば良いのか記載があるため、取得してきたもののファイル名の最後に「.jpg」を付け足す必要あり。

urllib3ライブラリのバイナリーデータについて
参考にしたサイトではrequestsライブラリを使用しているが、自分はurllib3を使用したため、httpレスポンス.dataでバイナリーデータとして取得することができる。
画像ファイルなどはバイナリーデータなのでこのようにテキストデータではなく、バイナリーデータに変換する必要がある。

今回のスクレイピング対象サイト

URl:https://matome.naver.jp/odai/2134591269077742301

urllib3ユーザガイド

URL:http://urllib3.readthedocs.io/en/latest/user-guide.html

2
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
3