Edited at

crowdworks から画像を一括ダウンロード

More than 1 year has passed since last update.

CrowdWorks は、画像アップロードのタスクを非常に簡単に作成できます。なので、機械学習で使うデータセットの収集などに便利です。

ただ、なぜかそれを簡単にダウンロードする方法が無く、一つずつ、ダウンロードする必要があります。

ので、wget で簡単にダウンロードする話しです。


  1. Chrome の Cookie の情報をExportできるツールをインストール



  2. Chrome で CrowdWorks のダッシュボードページにログイン

  3. 承認済みのタスクを選択し、「形式を選んで内容を一括ダウンロード」をクリックし、SJIS形式を選択

  4. ダウンロードしたCSVをExcelで開き、URL部分のみをコピーして、エディタなどに貼り付け

  5. 1行に1つのURLになるように編集して保存。(urls.txtとする)

  6. 先ほどのCrowdWorksを開いているChromeに戻り、"Export cookies.txt"のアイコンをクリック

  7. Ctrl-a (Macの場合 Command-a) を押して、全選択してコピー

  8. コピーした内容を適当なフォルダにcookies.txtとして保存

  9. cat urls.txt | xargs wget -x --load-cookies cookies.txt

これで、1つずつ、ダウンロードします。(時間はかかりますが、crowdworksに余計な負荷を掛けないと思います)