More than 5 years have passed since last update.

pythonライブラリicrawlerを使い簡単に画像データを集める

Last updated at 2018-07-15Posted at 2018-07-15

開発環境

mac OS High Sierra 10.13.6
anaconda3-5.2.0
python3.6

はじめに

以前、DeepLearningモデルDCGANをアイドルの顔画像を生成してみたという記事でpythonのライブラリBeautifulSoupを使い画像のスクレイピングをしました．（この記事を参考にしています．）
今回はより簡単に画像を集められるicrawlerというライブラリを使い、画像集めをしてみました．

ライブラリのインストール

pipを使いインストールします．ターミナルで以下のコマンドを実行すればインストールできます．

$ pip install icrawler

画像を集める

ソースコード以下になります．

icrawler.py

from icrawler.builtin import GoogleImageCrawler
import sys
import os

argv = sys.argv

if not os.path.isdir(argv[1]):
    os.makedirs(argv[1])


crawler = GoogleImageCrawler(storage = {"root_dir" : argv[1]})
crawler.crawl(keyword = argv[2], max_num = 1000)

ターミナルで以下を実行すれば指定したディレクトリに画像が保存されます．

$ python icrawler.py 保存したいディレクトリのパス 集めたい画像のキーワード

実際に実行して見ると、

$ python image/neru 長濱ねる

指定したディレクトリに画像が保存されます．

最後に

今回実装したコードはGitHubに載せてあります．
また、もっと詳しい使い方は英語ですがこちらのサイトに書いてあります．

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up