CrowdWorks は、画像アップロードのタスクを非常に簡単に作成できます。なので、機械学習で使うデータセットの収集などに便利です。
ただ、なぜかそれを簡単にダウンロードする方法が無く、一つずつ、ダウンロードする必要があります。
ので、wget で簡単にダウンロードする話しです。
- Chrome の Cookie の情報をExportできるツールをインストール
- Chrome で CrowdWorks のダッシュボードページにログイン
- 承認済みのタスクを選択し、「形式を選んで内容を一括ダウンロード」をクリックし、SJIS形式を選択
- ダウンロードしたCSVをExcelで開き、URL部分のみをコピーして、エディタなどに貼り付け
- 1行に1つのURLになるように編集して保存。(urls.txtとする)
- 先ほどのCrowdWorksを開いているChromeに戻り、"Export cookies.txt"のアイコンをクリック
- Ctrl-a (Macの場合 Command-a) を押して、全選択してコピー
- コピーした内容を適当なフォルダにcookies.txtとして保存
- cat urls.txt | xargs wget -x --load-cookies cookies.txt
これで、1つずつ、ダウンロードします。(時間はかかりますが、crowdworksに余計な負荷を掛けないと思います)