LoginSignup
1
0

More than 3 years have passed since last update.

すばらしいfind/47サイトの画像をPythonを使って取得する(その2/2: 対象リストをgithub公開しました)

Last updated at Posted at 2020-11-02

記事公開後の追記

githubリポジトリに、スケルトンとして、jpg以下、地域(地方)別-都道府県別の空フォルダをアップロードしました(2020/11/3, 11:30)。これで少し手間が省けたかと思います。

前回の記事を受けて

前回の記事を受けて、対象リストをgithubで公開しました。スクリプトを公開してむやみにfind/47へのアクセスを増加させるよりも当方が取得して参考公開したほうがいいと判断しました。画像はオープン投稿ではなく審査方式であり、1080枚でいったん落ち着いているようですので、当面はこれで十分でしょう。

ファイルの説明

02.csvが、簡単なスクリプトを書いて画像を得るのに簡便かと思います。

  • 第1列:ダウンロード先(取得元)URL
  • 第2列:直下jpgディレクトリに、地域と都道府県別にダウンロードzipファイルを保存する場合の指定例(find/47の階層を忠実に再現したもの。githubリポジトリにスケルトンを用意したので、よろしければお使いください)

01.csvは、02.csvの原型です。前回の記事のアウトプットがこれです。

  • 第1列:find/47が使用する地域分類コード。0が北海道、7が九州沖縄
  • 第2列:find/47が使用する都道府県コード。0が北海道、46が沖縄
  • 第3列:find/47が画像に固有付与している識別名
  • 第4列:xl,l,m,sのうち提供されている(ダウンロード可能な)最大サイズ。xlまでは不要、保存容量を節約したいといった場合は、ここをsに変えてください。ざっと調べたところ、サイズsとサイズmはすべての画像で提供されているようです。サイズlは(一部ですが)提供されていない画像があります。

壁紙目的であれば、地域や都道府県ごとに段階的に取得する、あるいは指定整数倍のindex行だけFizzBuzzぽく取得するなどが、お勧めです。

と、以上、CSVファイルの中身とこの説明だけを見て、画像取得の実装がピンと来る方のみお使いいただければという素っ気ない説明でした。ご理解のほど。

注意事項

02.csvを使ってこのまま画像を取得すると1080枚の画像が、各画像の取得し得る最大解像度(多くはXL)で得られます。この場合の必要ストレージ容量は10GB前後あるいはそれ以上です。ダウンロードしたzipファイルには画像のjpegファイルと説明のtxtファイルが含まれ、元のzipとtxtを削除し、jpegのみ残す場合でも、およそ10GBが必要になります。また、十分なアクセスウェイトを置いて1080枚すべての画像を取得する場合、僕の運用では、完了までに1晩(8-10時間程度)かかりました。画像は、zipから取り出したままの状態のファイル名とサイズの参考に。
image.png

補足

当方、1080枚から増えていないかときどき最新状況を確認し、githubでリストを更新していく予定です。また、次回2+回の記事を最終回とし、varietyを使用して壁紙を自動変更する設定に軽く触れます。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0