LoginSignup
0
0

More than 3 years have passed since last update.

VGGFace2データセットをサーバに直接ダウンロードする

Last updated at Posted at 2020-11-06

はじめに

VGGFace2というデータセットがあり、データをダウンロードするにはログインする必要があります。
合わせて40GBほどのデータセットなので、ローカルにダウンロードせず、AWS上のサーバにダウンロードしたいですよね。
しかしAWS上のサーバはCUIなので、ブラウザを開いてログインしてダウンロードというステップはできません。
そこで本記事ではCUI環境でもログインしたのと同じ状況でwgetを使用してダウンロードできる方法を解説します。

ローカル環境のcookiesを確認する

まずはローカル環境で次のサイトを開き、ログインします。
http://zeus.robots.ox.ac.uk/vgg_face2/
そのサイトでは、ログイン後はtokenが発行されcookiesで管理されています。
そのcookiesを使用すれば、CUIでもダウンロードできるようになります。
cookiesを見るのには、chromeのdeveloper toolsを使用し、「applications」タブを開き、cookiesをクリックするとサイトで使用されているcookiesの一覧を確認することができます。

cookies.txtをダウンロードする

cookiesを使用して、wgetをするためにはcookies情報をtxtとしてフォーマットに合わせて保存する必要があります。
手動でフォーマットに合わせて書いてもよいのですが、Chrome extensionで「get cookies.txt」というものがあり便利なので使いましょう。
https://chrome.google.com/webstore/detail/get-cookiestxt/bgaddhkoddajcdgocldbbfleckgcbcid/related
cookies.txtをダウンロードできたら、cookies.txtをサーバ上に保存しましょう。

wgetでdatasetをダウンロード

さてここでログイン情報を持つcookiesの準備は整いましたので、あとはwgetを使ってダウンロードするだけです。
VGGFace2のdatasetのダウンロードリンクは、下記です。
下記のリンクは、datasetのダウンロードページのリンクを右クリックしてリンクを取得することで調べました。

Train Data_v1. http://zeus.robots.ox.ac.uk/vgg_face2/get_file?fname=vggface2_train.tar.gz
Test Data_v1 http://zeus.robots.ox.ac.uk/vgg_face2/get_file?fname=vggface2_test.tar.gz
Train_Images_v1. http://www.robots.ox.ac.uk/~vgg/data/vgg_face2/meta/train_list.txt
Test_Images_v1. http://www.robots.ox.ac.uk/~vgg/data/vgg_face2/meta/test_list.txt

cookies.txtを使用するwgetコマンドは下記です。このコマンドを叩くときにcookies.txtを同じフォルダに入れる必要があります。

wget --load-cookies cookies.txt -r -k -E  url

次のように、36GBもあるtrain dataをサーバに直接ダウンロードしましょう。

wget --load-cookies cookies.txt -r -k -E  http://zeus.robots.ox.ac.uk/vgg_face2/get_file?fname=vggface2_train.tar.gz
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0