初めに
もともと過去に画像収集するロジックを書いていたのですが、現時点では既に使えなくなっていたのでそれを修正するとともにライブラリ化して簡単に使用できるようにしてみました。
ライセンスはMITとしているので使用に際してご自由に使用していただいて問題ありませんが、やっていることはYahooの画像検索ページからスクレイピングして画像情報を取得し対象サーバから画像データをダウンロードするという内容になります。
場合によってはスクレイピングのしすぎで問題が発生するかもしれません。
ご使用の際は注意いただくとともに私はこのライブラリを使用して発生したトラブルに責任を持ちません。
インストール方法
pip install git+https://github.com/KiharaTakahiro/image_searcher.git
使い方
from image_searcher import ImageSearcher
searcher = ImageSearcher()
searcher.scraping("猫")
ImageSearcher()の引数には以下が指定可能です。必要があれば適宜変更してご使用ください。
- dest_path (str): 画像の保存先. Defaults to "./img".
- max_page_num (int): クローリングするページ数. Defaults to 20.
- start_page (int): 開始ページ. Defaults to 1.
- img_num_per_page (int): 1ページ内の検索数. Defaults to 20.
- sleep_sec (int): 検索間隔(あまり早く設定すると高負荷になるかも自己責任でお願いします。). Defaults to 3.
- time_out (int): 取得できない時に何秒でタイムアウトにするか. Defaults to 5.
実行結果
上記プログラムが書いてある場所にimgというディレクトリが作成され、その中を見ると以下のように猫というディレクトリが作成されます。
猫ディレクトリの中に入ってい見ると下記のようにかわいい猫の画像がいっぱいになります!(実行中なので全部はそろっていませんが…)
終わりに
使用に際しては十分気をつけて行ってください。
この手のコードは簡単に書くことはできるのですが、やはり実際に使うとなると怖いなって思いもあるので作っては見たものの公開しても良いのか?という思いはあります…
とはいえどうやったらこんなことができるのか?という技術的な興味があるかたもいるかと思いましたので応用したりして使ってみていただければと思います。
ソースコードは以下に格納してあります。
https://github.com/KiharaTakahiro/image_searcher