1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

遺伝研スパコンでDFASTを動かす

Last updated at Posted at 2021-03-31

概要

原核微生物用のゲノムアノテーションツール DFAST (DDBJ Fast Annotation and Submission Tool) のスタンドアローン版を遺伝研スパコンで動かす。
スパコンに用意された singularity コンテナ (→参考)と参照データを使えばソフトウェアのセットアップの必要なく動かすことができる。(スパコンを使わない場合には [github] (https://sc.ddbj.nig.ac.jp/ja/guide/software/singularity) からソースコードを取得するか、Bioconda を使ってインストールできる。)
また、ゲノムの完成度および生物種名チェックのツール DFAST_QC も同様の手順で実行できる。

* 初心者の方、大量にデータ処理をする必要がない方は web版 DFAST を使用することをおすすめします。

DFASTの実行

遺伝研スパコンには/usr/local/biotools/以下にBiocontainersからインポートされたsingularityコンテナが格納されている。スタンドアローン版DFAST (DFAST_core)のコンテナイメージファイル/usr/local/biotools/d/dfast:1.2.13--h8b12597_0 (2021年3月時点での最新版) を利用する。

DFASTの参照用データ (参照タンパク質配列DB等)はスパコンの/usr/local/resources/mirror/ddbj.nig.ac.jp/dfast/dfast_core_db/に配置されている(*1)ので、これを--dbrootオプションで指定して利用する。

*1) スパコンの/usr/local/resources/以下にはDDBJに登録された配列データやBLASTデータベースなど様々なリソースファイルが用意されている。

実行前の準備

起動するのにデフォルトのメモリ設定では不足する(*2)ので、下記のようにメモリ指定してqloginをしておく。(バッチジョブとして投入する際には同じようにメモリオプションと、必要であれば使用CPU数を指定する)

qlogin -l mem_req=8g,s_vmem=8G

*2) デフォルトのメモリ設定では足りない場合があるので8Gを指定している。理由不明だが遺伝研スパコンではBiopythonをインポートするとなぜか大量にメモリを必要とする(自環境だけかもしれない)。DFASTをデフォルト条件で実行するだけなら本来はそれほどメモリは必要とせず、メモリ8Gb積んだMacBookでも動作する。

2023.2.4追記 Biopython をインポートする際にメモリが大量に消費される問題を回避するため、

export OMP_NUM_THREADS=1

を設定しておく。
(参考: https://teratail.com/questions/373677, https://github.com/bcgsc/mavis/issues/185#issuecomment-481376728)

次に、JAVAが動くようにに環境変数MALLOC_ARENA_MAXに小さめの値を設定しておく。

export MALLOC_ARENA_MAX=2

これは遺伝研スパコン特有のtipsで、JAVA実行時に不必要に大量のメモリが確保されるのを防ぐためである (→参考)。export _JAVA_OPTIONS="-XX:ParallelGCThreads=1 -Xmx1g"のように環境変数を設定しておく方法でも回避できる。

実行

singularity exec -B /usr/local/resources/mirror/ddbj.nig.ac.jp/dfast/dfast_core_db:/dfast_core_db \
  /usr/local/biotools/d/dfast:1.2.13--h8b12597_0 dfast \
  --dbroot /dfast_core_db --genome path/to/genome.fna --cpu 1

singularity実行時には自ホームディレクトリは自動でバインドされるようになっているが、それ以外の場所のファイルは見えなくなってしまう。そこで、-Bオプションを使って参照データの置き場所/usr/local/resources/mirror/ddbj.nig.ac.jp/dfast/dfast_core_db/をコンテナの/dfast_core_dbにバインドしている。dfastの実行オプションに --dbroot /dfast_core_dbと指定することでこのデータが参照可能になる。

この例ではインタラクティブシェルからの利用を想定しているため--cpu 1を指定している。バッチジョブで投げる場合、CPU要求値に合わせて変更して構わない(デフォルトでは--cpu 4になっている)。

DFAST_QCの実行

singularityコンテナイメージファイル /usr/local/biotools/d/dfast_qc:0.2.6--0と参照データ /usr/local/resources/mirror/ddbj.nig.ac.jp/dfast/dqc_reference を使って同様に実行できる。
DFAST_QCは参照データの準備に時間がかかるが、この方法を使えばすぐに使用することができる。

事前準備

DFASTと同様に、メモリを24G程度指定してログインしておく。

また、外部との通信できるように/etc/resolv.conf を別の場所にコピーしておき、実行時にコンテナにバインドする(*3)。ここでは/tmpにコピーを作成する。これはログアウトすると消去される。

cp /etc/resolv.conf /tmp

*3) /etc/resolv.conf とはDNSへの参照情報が書かれたファイルで外部とのネットワーク通信で必要になるが、Biocontainersから提供されているコンテナには含まれていない (→参考)。そのため、実行時にスパコン外との通信が必要なツールについてはresolv.confをコンテナにバインドする必要がある。なお、コンテナ内では/etc/resolv.conf/tmp/resolv.confへのリンクになっているので、上記のようにコピーを作成してからホストの/tmpをコンテナの /tmpにバインドすればコンテナ内でresolv.confが参照できるようになる。
DFAST_QCでは実行時に不足する参照データがあればNCBIのFTPサーバーに接続して取得するようになっているため、この操作が必要。今後のアップデートで接続しなくても動作するように変更する予定であり、将来的にはこの事前準備は不要となる。

実行

singularity exec -B /tmp:/tmp -B /usr/local/resources/mirror/ddbj.nig.ac.jp/dfast/dqc_reference:/dqc_reference \
  /usr/local/biotools/d/dfast_qc:0.2.6--0 dfast_qc \
  --ref_dir /dqc_reference --input_fasta path/to/genome.fna

DFASTのときと同様に参照データをコンテナの/dqc_referenceにバインドし、--ref_dirオプションで指定している。

DFAST_QC実行方法に関する追記 (2021.12.28)

遺伝研スパコンの/usr/local/resources/mirror/ddbj.nig.ac.jp/dfast/containers/dfast_qc-latest.sifに最新版(執筆時点で0.4.1)のsingularityコンテナイメージを用意しています。これを利用する場合、

singularity exec -B /usr/local/resources/mirror/ddbj.nig.ac.jp/dfast/dqc_reference/:/dqc_reference /usr/local/resources/mirror/ddbj.nig.ac.jp/dfast/containers/dfast_qc-latest.sif dfast_qc --input path/to/genome.fna

で実行可能です。

まとめ

  • 遺伝研スパコンでは/usr/local/biotools/以下にBiocontainersからインポートされたsingularityコンテナが格納されている。
  • 遺伝研スパコンでは/usr/local/resources/以下に様々な参照用データが用意されている。
  • これらを組み合わせて使用することで、ソフトウェアや参照データのセットアップの必要がなくDFASTやDFAST_QCが使用できる。
  • 遺伝研スパコンではJAVAのプログラムを動かすときには環境変数MALLOC_ARENA_MAXの指定が必要。
  • コンテナから外部とのネットワーク通信が必要なツールを動かす際にはコンテナにresolv.confをバインドする必要がある。
1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?