新しいgnomADができていた
gnomADのあたらしいサイトr2.1ができていた。
変異データの扱いにはHail0.2がおすすめ、と公式に書いてあったので、インストールを試みた。
Hailのインストール
マシン : Mac Pro (Mid 2012)
OS : MacOS Sierra
Hailの公式では、pip
でインストールしてね、とあったのだけど、
Jupyter notebookでimport hail
してもエラーになってしまう。
コンパイル済みのパッケージも上記ページで配布していたので、
それを使ってインストールを試みることにした。
pip
を使わないときはSpark2.2.xが必要ということで、
それも公式からspark-2.2.2-bin-hadoop2.7.tgzをダウンロードしておく。
あとは上記ページのインストールマニュアルに沿ってインストール。
まずSparkの解凍から。
tar xvf <path to spark.tgz>
SparkのフォルダパスをSPARK_HOMEという変数に入れておく。
export SPARK_HOME=<path to spark>
これで準備はOK。SPARK_HOMEがないとインストールがうまくいかないので、
公式に書いてある順番は守らなくちゃいけない(当たり前だけど)。
Hailのパッケージを解凍して、Hailのフォルダにある/binをPATHに追加しておく。
unzip <path to hail.zip>
export HAIL_HOME=<path to hail>
export PATH=$PATH:$HAIL_HOME/bin/
Pythonの依存モジュールをAnacondaのenvironmentを作ってそこにいれておく。
environment.ymlに必要なモジュールが書かれているようなので、
以下のとおりにターミナルに入力する。
conda env create -n hail -f $HAIL_HOME/python/hail/environment.yml
environmentを有効化する。公式にはsource activate
とあるけどconda activate
でもOK。
conda activate hail
Jupyter notebook形式で書かれたチュートリアルのフォルダに移動してjhailコマンドでHailを立ち上げる。
cd $HAIL_HOME/tutorials
jhail
通常のJupyter notebookからはHailのインポートのところでコケてしまうので注意。
かならずconda activate hail
→ jhail
で起動。
environmentを終了するにはconda deactivate
と入力する。
Hailを使って変異データを扱うことについてはまた後日。