wget
小ネタ
CrowdWorks

crowdworks から画像を一括ダウンロード

CrowdWorks は、画像アップロードのタスクを非常に簡単に作成できます。なので、機械学習で使うデータセットの収集などに便利です。

ただ、なぜかそれを簡単にダウンロードする方法が無く、一つずつ、ダウンロードする必要があります。
ので、wget で簡単にダウンロードする話しです。

  1. Chrome の Cookie の情報をExportできるツールをインストール
  2. Chrome で CrowdWorks のダッシュボードページにログイン
  3. 承認済みのタスクを選択し、「形式を選んで内容を一括ダウンロード」をクリックし、SJIS形式を選択
  4. ダウンロードしたCSVをExcelで開き、URL部分のみをコピーして、エディタなどに貼り付け
  5. 1行に1つのURLになるように編集して保存。(urls.txtとする)
  6. 先ほどのCrowdWorksを開いているChromeに戻り、"Export cookies.txt"のアイコンをクリック
  7. Ctrl-a (Macの場合 Command-a) を押して、全選択してコピー
  8. コピーした内容を適当なフォルダにcookies.txtとして保存
  9. cat urls.txt | xargs wget -x --load-cookies cookies.txt

これで、1つずつ、ダウンロードします。(時間はかかりますが、crowdworksに余計な負荷を掛けないと思います)