新しいgnomADができていた

gnomADのあたらしいサイトr2.1ができていた。

変異データの扱いにはHail0.2がおすすめ、と公式に書いてあったので、インストールを試みた。


Hailのインストール

マシン : Mac Pro (Mid 2012)

OS : MacOS Sierra

Hailの公式では、pipでインストールしてね、とあったのだけど、

Jupyter notebookでimport hailしてもエラーになってしまう。

コンパイル済みのパッケージも上記ページで配布していたので、

それを使ってインストールを試みることにした。

pipを使わないときはSpark2.2.xが必要ということで、

それも公式からspark-2.2.2-bin-hadoop2.7.tgzをダウンロードしておく。

あとは上記ページのインストールマニュアルに沿ってインストール。

まずSparkの解凍から。

tar xvf <path to spark.tgz>

SparkのフォルダパスをSPARK_HOMEという変数に入れておく。

export SPARK_HOME=<path to spark>

これで準備はOK。SPARK_HOMEがないとインストールがうまくいかないので、

公式に書いてある順番は守らなくちゃいけない(当たり前だけど)。

Hailのパッケージを解凍して、Hailのフォルダにある/binをPATHに追加しておく。

unzip <path to hail.zip>

export HAIL_HOME=<path to hail>
export PATH=$PATH:$HAIL_HOME/bin/

Pythonの依存モジュールをAnacondaのenvironmentを作ってそこにいれておく。

environment.ymlに必要なモジュールが書かれているようなので、

以下のとおりにターミナルに入力する。

conda env create -n hail -f $HAIL_HOME/python/hail/environment.yml

environmentを有効化する。公式にはsource activateとあるけどconda activateでもOK。

conda activate hail

Jupyter notebook形式で書かれたチュートリアルのフォルダに移動してjhailコマンドでHailを立ち上げる。

cd $HAIL_HOME/tutorials

jhail

通常のJupyter notebookからはHailのインポートのところでコケてしまうので注意。

かならずconda activate hail → jhailで起動。

environmentを終了するにはconda deactivateと入力する。

Hailを使って変異データを扱うことについてはまた後日。