はじめに
VGGFace2というデータセットがあり、データをダウンロードするにはログインする必要があります。
合わせて40GBほどのデータセットなので、ローカルにダウンロードせず、AWS上のサーバにダウンロードしたいですよね。
しかしAWS上のサーバはCUIなので、ブラウザを開いてログインしてダウンロードというステップはできません。
そこで本記事ではCUI環境でもログインしたのと同じ状況でwgetを使用してダウンロードできる方法を解説します。
ローカル環境のcookiesを確認する
まずはローカル環境で次のサイトを開き、ログインします。
http://zeus.robots.ox.ac.uk/vgg_face2/
そのサイトでは、ログイン後はtokenが発行されcookiesで管理されています。
そのcookiesを使用すれば、CUIでもダウンロードできるようになります。
cookiesを見るのには、chromeのdeveloper toolsを使用し、「applications」タブを開き、cookiesをクリックするとサイトで使用されているcookiesの一覧を確認することができます。
cookies.txtをダウンロードする
cookiesを使用して、wgetをするためにはcookies情報をtxtとしてフォーマットに合わせて保存する必要があります。
手動でフォーマットに合わせて書いてもよいのですが、Chrome extensionで「get cookies.txt」というものがあり便利なので使いましょう。
https://chrome.google.com/webstore/detail/get-cookiestxt/bgaddhkoddajcdgocldbbfleckgcbcid/related
cookies.txtをダウンロードできたら、cookies.txtをサーバ上に保存しましょう。
wgetでdatasetをダウンロード
さてここでログイン情報を持つcookiesの準備は整いましたので、あとはwgetを使ってダウンロードするだけです。
VGGFace2のdatasetのダウンロードリンクは、下記です。
下記のリンクは、datasetのダウンロードページのリンクを右クリックしてリンクを取得することで調べました。
Train Data_v1. http://zeus.robots.ox.ac.uk/vgg_face2/get_file?fname=vggface2_train.tar.gz
Test Data_v1 http://zeus.robots.ox.ac.uk/vgg_face2/get_file?fname=vggface2_test.tar.gz
Train_Images_v1. http://www.robots.ox.ac.uk/~vgg/data/vgg_face2/meta/train_list.txt
Test_Images_v1. http://www.robots.ox.ac.uk/~vgg/data/vgg_face2/meta/test_list.txt
cookies.txtを使用するwgetコマンドは下記です。このコマンドを叩くときにcookies.txtを同じフォルダに入れる必要があります。
wget --load-cookies cookies.txt -r -k -E url
次のように、36GBもあるtrain dataをサーバに直接ダウンロードしましょう。
wget --load-cookies cookies.txt -r -k -E http://zeus.robots.ox.ac.uk/vgg_face2/get_file?fname=vggface2_train.tar.gz