CyVerseとは
- データ解析をコモディティ化するための"サイバーインフラストラクチャー"を提供するプロジェクト。
- アカウントを作るとストレージが貰えたりクラウド環境が使えたりする
- アクティブユーザーが5万人以上いるらしい、が日本ではあまり聞かない気がする
- 日本語の記事はこれぐらい(http://kazumaxneo.hatenablog.com/entry/2018/04/16/224603)
やりたいこと
- 使いたい論文のデータがiVirus上にアップされている (iVirus論文)
- iVirusはCyVerse内のプロジェクト
- それをDLしたい。GUIでぽちぽちやってダウンロードする機能も一応あるっぽかったが、めちゃ遅くてダウンロードできる気がしなかった
方針
- CyVerseの中のデータはiCommandsを介してDownLoadするっぽい:参考
- iCommandsはiRODSに入っているっぽい:参考
- iRODS自体はCyVerseで使っているオープンソースのデータマネジメントツール群で、iRODSからCyVerseのアカウントでログインしデータを落とす
やったこと
まず http://kazumaxneo.hatenablog.com/entry/2018/04/16/224603 を参考にCyVerseのアカウントを作り、GUI上でアクセス。欲しいデータのパスを確認。
今回は
/iplant/home/shared/iVirus/GOV2.0/GOV2_viral_populations_larger_than_10KB_or_circular.zip
/iplant/home/shared/iVirus/GOV2.0/GOV2_viral_populations_larger_than_5KB_or_circular.zip
これらが欲しい。
iRODSのインストールはこんな感じ
wget -qO - https://packages.irods.org/irods-signing-key.asc | sudo apt-key add -
echo "deb [arch=amd64] https://packages.irods.org/apt/ $(lsb_release -sc) main" | sudo tee /etc/apt/sources.list.d/renci-irods.list
sudo apt-get update
sudo apt-get install irods-server irods-database-plugin-postgres
IRODSをインストールしたら、データベースへの接続の初期設定をする。対話型で聞かれるので、wiki に従って答えていけばいい。
vagrant@vagrant:~$ iinit
ERROR: environment_properties::capture: missing environment file. should be at [/home/vagrant/.irods/irods_environment.json]
One or more fields in your iRODS environment file (irods_environment.json) are
missing; please enter them.
Enter the host name (DNS) of the server to connect to: data.cyverse.org
Enter the port number: 1247
Enter your irods user name: your_user_name
Enter your irods zone: iplant
Those values will be added to your environment file (for use by
other iCommands) if the login succeeds.
これでデータにつながるようになったので、wget likeなコマンド igetでデータを落とす。
vagrant@vagrant:~$ iget -K /iplant/home/shared/iVirus/GOV2.0/GOV2_viral_populations_larger_than_10KB_or_circular.zip
vagrant@vagrant:~$ iget -K /iplant/home/shared/iVirus/GOV2.0/GOV2_viral_populations_larger_than_5KB_or_circular.zip
感想および愚痴
- データダウンロードしたいだけなのに周辺のエコシステムの知識必要なの辛すぎ
- Documentも基本的にCyVerse環境内で閉じた解析を想定しててしんどい
- wget一発で取れるようにしてほしい