#生じた問題
Pythonを用いて、Webスクレイピングを実行していた。
Imgタグの、src属性の値を習得しようとしたが、上手く習得できなかった。
下記に、異常な内容を示します。
使用したコードは、下記の通りです。
for soup in atriclesoup:
img = soup.find('img').get('src')
print(img)
#解決策
- print関数で、習得していたデータを確認する
- srcの他に、習得できるデータがあることを確認する
- data-src のタグを用いて、データを取得する
print関数を用いて、データを確認してみると、
srcの値が異常なのは変わらず。
でも、その他に[data-src]の存在を確認できました。
え、Srcだと思ってたけど、実は[data-src]が正しかった…?
HTMLを確認してみると、
そして、[data-src]のデータを取得すると、無事取得できました。
これは予想だけど、画像などはバイナリデータ(0と1で作られているデータ)だから、上手く文字として反映されていないのだろうと、スクレイピングしながら気づきました。
#おわりに
もし、コード自体に間違いはないと確信がある。
その場合は、一度Print関数を用いて、目視で確認するといいかも
実は、別のデータでも求めているものが引っ張れたりする。
と勉強になりました!