あけましておめでとうございます。
結構知ってる人が多いとは思いますが私が何度も迷うので書き留めておきます。
機械学習の際の学習データにご利用ください。
2020年8月ごろ?に検索結果の提供方法が大きく変わったらしく、Windows用ソフトの「ImageSpider」が使えなくなりました。(結構便利だったんですけどね...)
そこでこれからはPython用ライブラリの**「google_images_download」**を使うことにしました。
インストール
【注意】pipではインストールしないでください!
pip3 install google_images_download
PIPにあるバージョンではGoogle側の変更に対応できていないため、インストールしても使えません。
なので直接インストールします。
git clone https://github.com/Joeclinton1/google-images-download.git
cd google-images-download && sudo python setup.py install
これでインストールは終わりです。
使い方
ここでは代表的な使い方としてコマンドライン上での利用方法を載せておきます。
googleimagesdownload --keywords "apple" --limit 20
上記の例だと「apple」の検索結果を20件、カレントディレクトリに保存します。
Python上での使い方やその他の条件設定等は**公式ドキュメント**を見てください。
100件以上を取得する場合
取得したい画像が100件を超える場合はchromedriverをインストールする必要があります。
※Ubuntu20.04 LTSでの操作方法です。Windowsの場合は各自お調べくださいm(_ _)m
まずドライバの最新バージョンを確認
以下のサイトに行って最新版の「chromedriver_linux64.zip」のURlをコピーしてください。
https://sites.google.com/a/chromium.org/chromedriver/downloads
因みに2021年1月6日現在はhttps://chromedriver.storage.googleapis.com/88.0.4324.27/chromedriver_linux64.zip でした。
次に以下のコマンドを続けて入力してください。(こちらの記事を参考にさせていただきました。)
sudo apt install unzip
cd /tmp/
curl -O <<<<<ここにさっき確認したURLを入れる>>>>>
unzip chromedriver_linux64.zip
mv chromedriver /usr/local/bin/
rm chromedriver_linux64.zip
これでインストールは以上です。
100件以上取得する際のコマンド
googleimagesdownload --keywords "apple" --limit 120 --chromedriver /usr/local/bin/chromedriver
さっき紹介したやつに --chromedriver オプションでインストール先を選択するだけです。