0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

簡単な画像収集のスクレイピングが上手くできなかった話

Last updated at Posted at 2022-10-30

Qiitaで面白そうな内容のものがあったので、コードを試してみました。もともと機械学習とWeb開発に興味があったので、こんなことできたらいいなと思えるとても良い記事でした。
齋藤飛鳥と玉森裕太の顔分類 WEB アプリ開発

同じ人物だとつまらないので、King & Princeの平野紫耀とBTSのテテにしました。(二人ともかっこよすぎる、、)

しかしエラーとなる部分が出てきてしまって、10分くらいいじろうと思っていたのが、気づいたら2, 3時間経っていました。

コード自体は動くはずなのになぜか上手くいかない、、
そんなエラーに出会ってから解決するまでを記録します。

読者の対象者

  • スクレイピングをやりたい
  • エラーがないコードを動かしてみたい
  • エラーを解決する過程が知りたい
  • 他人がどのくらいエラーでつまづくものなのか知りたい

といった人になるかと思います。

とりあえずコードを実行してみる

コードを実行すると、以下のようになった。

ImportError: No module named 'icrawler'

icrawlerとは、Webクローラーのミニフレームワークです。

これがインポートできないのかと思い、とりあえずicrawlerをインストールします。無事インストールは完了しました。(よくインストールでもつまづく、、)
そして、再び実行します。

ImportError: No module named 'icrawler'

ん? 同じエラーやん、、

ググったら、以下の記事を見つけました。
【python】ImportError: No module named '***'の対処法

僕の場合は、単にpython scraping.pyで実行するのではなく、python3 scraping.pyで実行すればいいだけでした。
大事なのは、3をつけるかどうかではなく、icrawlerがどのpythonに紐づいているかです。

もし、このようなエラーを起こしたくないなら

python -m pip install **

でインストールすれば良いのだとわかりました。

新たなエラーとの出会いと解決まで

エラーが一つ解決すると、新しいエラーが現れました。

OSError: cannot write mode RGBA as JPEG

見たことがなさそうなエラーなのでとりあえずエラー文をコピペしてググります。すると以下の記事が見つかりました。
Pillow (Python Imaging Library)でPNGファイルを扱う時の注意

要するに、openしているとこの後ろに.convert('RGB')を付ければ良いということです。

img=Image.open(img_path)

これを以下のように書き加える。

img=Image.open(img_path).convert('RGB')

解決できなそうなエラーは例外処理を使う

次に出会ったエラーは、画像ファイルが開けないという内容のエラーでした。
【Python】画像の破損をチェックするコード例【Pillow】

実際にその画像を見てみるとたしかに破損したファイルになってしまっているようです。この画像ファイルを消せばいいのですが、これが何枚もあるとその作業も面倒です。

そこで、例外処理で処理をスキップすることにしました。

for img_path in img_paths:
        try:
        #画像ファイルに変換
        img=Image.open(img_path).convert('RGB')
        #指定したサイズでリサイズをする
        img_resized=img.resize((w,h))
        
        #リサイズした画像を上書き保存、同じパスを指定
        img_resized.save(img_path)
        img.close()

上のコードを以下のように例外処理する感じに書き換えます。

for img_path in img_paths:
        try:
            #画像ファイルに変換
            img=Image.open(img_path).convert('RGB')
            #指定したサイズでリサイズをする
            img_resized=img.resize((w,h))

            #リサイズした画像を上書き保存、同じパスを指定
            img_resized.save(img_path)
            img.close()
        except Exception as e:
            print("Error:", img_path)
            msg = getattr(e, 'msg', None)
            print(f'(message) {msg}')
        else:
            # エラーは検出できなかった。
            print('ok!', img_path)

try文がもとの処理したい内容、except文がエラーが起きたときの処理内容 (ただprintしてチェックしたいだけ)となっています。

コード全文

このまま人にレビューしてもらったら

if __name__ == "__main__":を書きましょう」
「よく変える変数はコマンド引数にしましょう」
「関数の引数はtypeが分かるようにしましょう」

など返ってきそうですが、とりあえず動けばいいのでそのままにします。
(今度、コードを読みやすくするポイントについても書きたい)

from icrawler.builtin import BingImageCrawler
from PIL import Image
import glob


# 画像を収集するメソッド
# 引数は画像を保存するパスpath、検索ワードkeyword、収集する枚数num

def scraping(path, keyword, num):

    bing_crawler=BingImageCrawler(
    downloader_threads=4,
    storage={'root_dir': path}
    )

    #検索ワードにkeywordを入れたときに得られる画像をnum枚収集
    bing_crawler.crawl(
        keyword=keyword,
        max_num=num
    )
    print(f'{keyword}: scraping completed!')


#ファイルの形式はjpegなので、ファイル名には必ず拡張子.jpgがつく
asuka_path='./images/figure0/*.jpg'
tama_path='./images/figure1/*.jpg'

keywords=['平野紫耀','BTS V']
num=600

scraping('./images/figure0/', keywords[0], num)
scraping('./images/figure1/', keywords[1], num)

# """
# 画像をリサイズするメソッド
# 引数は保存したいパスpath=フォルダ名+フォーマット名、変更後のサイズの幅と高さw,h
#
# *リサイズしたい画像はパスで指定される
# """

def resize_image(path, w, h):
    img_paths=glob.glob(path)

    for img_path in img_paths:
        try:
            #画像ファイルに変換
            img=Image.open(img_path).convert('RGB')
            #指定したサイズでリサイズをする
            img_resized=img.resize((w,h))

            #リサイズした画像を上書き保存、同じパスを指定
            img_resized.save(img_path)
            img.close()
        except Exception as e:
            print("Error:", img_path)
            # e に msg 属性があれば取得、無ければ None にしておきました。
            msg = getattr(e, 'msg', None)
            print(f'(message) {msg}')
        else:
            # エラーは検出できなかった。
            print('ok!', img_path)
    print(f'{path}: resized!')

#サイズは300x300で指定
width=300
height=300

resize_image(asuka_path, width, height)
resize_image(tama_path, width, height)

最後に

多分もっとこうしたらいいみたいなのが見つかるのかもしれないですが、とりあえず動けばいいの精神で進めました。
色々な分野に興味があるならその分、スピード感も大事にしていきたいです。

参考記事

齋藤飛鳥と玉森裕太の顔分類 WEB アプリ開発

【python】ImportError: No module named '***'の対処法

Pillow (Python Imaging Library)でPNGファイルを扱う時の注意

【Python】画像の破損をチェックするコード例【Pillow】

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?