More than 1 year has passed since last update.

画像収集を簡単に行えるライブラリを作ってみた

Posted at 2022-08-21

初めに

もともと過去に画像収集するロジックを書いていたのですが、現時点では既に使えなくなっていたのでそれを修正するとともにライブラリ化して簡単に使用できるようにしてみました。
ライセンスはMITとしているので使用に際してご自由に使用していただいて問題ありませんが、やっていることはYahooの画像検索ページからスクレイピングして画像情報を取得し対象サーバから画像データをダウンロードするという内容になります。
場合によってはスクレイピングのしすぎで問題が発生するかもしれません。
ご使用の際は注意いただくとともに私はこのライブラリを使用して発生したトラブルに責任を持ちません。

インストール方法

pip install git+https://github.com/KiharaTakahiro/image_searcher.git

使い方

from image_searcher import ImageSearcher

searcher = ImageSearcher()
searcher.scraping("猫")

ImageSearcher()の引数には以下が指定可能です。必要があれば適宜変更してご使用ください。

dest_path (str): 画像の保存先. Defaults to "./img".
max_page_num (int): クローリングするページ数. Defaults to 20.
start_page (int): 開始ページ. Defaults to 1.
img_num_per_page (int): 1ページ内の検索数. Defaults to 20.
sleep_sec (int): 検索間隔(あまり早く設定すると高負荷になるかも自己責任でお願いします。). Defaults to 3.
time_out (int): 取得できない時に何秒でタイムアウトにするか. Defaults to 5.

実行結果

上記プログラムが書いてある場所にimgというディレクトリが作成され、その中を見ると以下のように猫というディレクトリが作成されます。

猫ディレクトリの中に入ってい見ると下記のようにかわいい猫の画像がいっぱいになります！（実行中なので全部はそろっていませんが…）

終わりに

使用に際しては十分気をつけて行ってください。
この手のコードは簡単に書くことはできるのですが、やはり実際に使うとなると怖いなって思いもあるので作っては見たものの公開しても良いのか？という思いはあります…
とはいえどうやったらこんなことができるのか？という技術的な興味があるかたもいるかと思いましたので応用したりして使ってみていただければと思います。

ソースコードは以下に格納してあります。
https://github.com/KiharaTakahiro/image_searcher

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up