Qiita Teams that are logged in
You are not logged in to any team

Log in to Qiita Team
Community
OrganizationAdvent CalendarQiitadon (β)
Service
Qiita JobsQiita ZineQiita Blog
Help us understand the problem. What is going on with this article?

pythonライブラリicrawlerを使い簡単に画像データを集める

More than 1 year has passed since last update.

開発環境

  • mac OS High Sierra 10.13.6
  • anaconda3-5.2.0
  • python3.6

はじめに

以前、DeepLearningモデルDCGANをアイドルの顔画像を生成してみたという記事でpythonのライブラリBeautifulSoupを使い画像のスクレイピングをしました.(この記事を参考にしています.)
今回はより簡単に画像を集められるicrawlerというライブラリを使い、画像集めをしてみました.

ライブラリのインストール

pipを使いインストールします.ターミナルで以下のコマンドを実行すればインストールできます.

$ pip install icrawler

 

画像を集める

ソースコード以下になります.

icrawler.py
from icrawler.builtin import GoogleImageCrawler
import sys
import os

argv = sys.argv

if not os.path.isdir(argv[1]):
    os.makedirs(argv[1])


crawler = GoogleImageCrawler(storage = {"root_dir" : argv[1]})
crawler.crawl(keyword = argv[2], max_num = 1000)

ターミナルで以下を実行すれば指定したディレクトリに画像が保存されます.

$ python icrawler.py 保存したいディレクトリのパス 集めたい画像のキーワード

実際に実行して見ると、

$ python image/neru 長濱ねる

指定したディレクトリに画像が保存されます.

スクリーンショット 2018-07-15 21.32.09.png

最後に

今回実装したコードはGitHubに載せてあります.
また、もっと詳しい使い方は英語ですがこちらのサイトに書いてあります.

Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away