Edited at

pythonライブラリicrawlerを使い簡単に画像データを集める

More than 1 year has passed since last update.


開発環境


  • mac OS High Sierra 10.13.6

  • anaconda3-5.2.0

  • python3.6


はじめに

以前、DeepLearningモデルDCGANをアイドルの顔画像を生成してみたという記事でpythonのライブラリBeautifulSoupを使い画像のスクレイピングをしました.(この記事を参考にしています.)

今回はより簡単に画像を集められるicrawlerというライブラリを使い、画像集めをしてみました.


ライブラリのインストール

pipを使いインストールします.ターミナルで以下のコマンドを実行すればインストールできます.

$ pip install icrawler

 


画像を集める

ソースコード以下になります.


icrawler.py

from icrawler.builtin import GoogleImageCrawler

import sys
import os

argv = sys.argv

if not os.path.isdir(argv[1]):
os.makedirs(argv[1])

crawler = GoogleImageCrawler(storage = {"root_dir" : argv[1]})
crawler.crawl(keyword = argv[2], max_num = 1000)


ターミナルで以下を実行すれば指定したディレクトリに画像が保存されます.

$ python icrawler.py 保存したいディレクトリのパス 集めたい画像のキーワード

実際に実行して見ると、

$ python image/neru 長濱ねる

指定したディレクトリに画像が保存されます.

スクリーンショット 2018-07-15 21.32.09.png


最後に

今回実装したコードはGitHubに載せてあります.

また、もっと詳しい使い方は英語ですがこちらのサイトに書いてあります.