0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

Webスクレイピングで、"Src"のデータを適切に取得する方法

Posted at

#生じた問題
Pythonを用いて、Webスクレイピングを実行していた。
Imgタグの、src属性の値を習得しようとしたが、上手く習得できなかった。
下記に、異常な内容を示します。
srcのコードがおかしい.png

使用したコードは、下記の通りです。

for soup in atriclesoup:
    img = soup.find('img').get('src')
    print(img)

#解決策

  1. print関数で、習得していたデータを確認する
  2. srcの他に、習得できるデータがあることを確認する
  3. data-src のタグを用いて、データを取得する
    print関数を用いて、データを確認してみると、
    全部の要素印刷.png
    srcの値が異常なのは変わらず。
    でも、その他に[data-src]の存在を確認できました。
    え、Srcだと思ってたけど、実は[data-src]が正しかった…?
    HTMLを確認してみると、
    元々のHTML.png
    そして、[data-src]のデータを取得すると、無事取得できました。
    上手く引っ張れたデータ.png

これは予想だけど、画像などはバイナリデータ(0と1で作られているデータ)だから、上手く文字として反映されていないのだろうと、スクレイピングしながら気づきました。

#おわりに
もし、コード自体に間違いはないと確信がある。
その場合は、一度Print関数を用いて、目視で確認するといいかも
実は、別のデータでも求めているものが引っ張れたりする。
と勉強になりました!

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?