NCBIのゲノムデータをパパッとダウンロードしたい!
バイオインフォマティクス解析で、複数のゲノムデータをNCBIから取得する機会が多々あります。
ですが、一つ一つ検索して・・・、クリックで移動して・・・ダウンロード形式選択して・・・ってめんどくさい!!!
そこで、今回はMacターミナル上で一気にデータをダウンロードする方法を2通り紹介します。
ncbi-acc-downloadを使おう
筆者のおすすめ方法です。
ncbi-acc-downloadというアクセッション番号を入力することでターミナル上でデータをダウンロードする方法です。
パッケージはpip, condaに入っています。まずconda installでインストールしましょう。
conda install -c bioconda ncbi-acc-download
これで完了です。
使い方
基本的にこれでOKです
ncbi-acc-download -F fasta -o preferance_directory/output.fasta ACCESSION_NUMBER
オプション-Fはファイル形式(fasta, genbank, gffなど・・・)、-oでアウトプットファイルの場所/名前を指定です。
複数ファイルを一気にダウンロードする場合、ACCESSION_NUMBERを変数にして、while readやforでループさせましょう。他にもオプションがあります。ダウンロードファイルを一つにまとめたりすることもできます。--helpで見れるので、活用するといいのではないでしょうか。
なぜおすすめなの
アクセッション番号でダウンロードできで嬉しいのは、BLASTの結果を利用できるためです。バイオインフォマティクスで誰もが使うであろうブラウザ版BLAST、その結果からデータをダウンロードし、別のプログラムで利用したりするでしょう。BLASTの結果に出てくるデータを一気に取得できれば、楽なのです。
嬉しいことに、ブラウザ版のBLAST結果ファイルでは、アクセッション番号が列でまとめられて記載されてます。
筆者はこちらを編集し、欲しいデータを一気にダウンロードしてます(他にも楽な方法があるかもですが・・・)
wgetを使おう
もう一つの方法として、wgetでデータを取得するやり方があります。
NCBIのデータはftpサーバーに保管されてます。データのURLを入力すれば、wgetで容易にダウンロードできますね。
こちらはこれでOKです。
wget -P preferance_path/ URL
オプション-Pで保存先を指定できます。
シンプルでわかりやすいですが、URLをいちいちコピペしたりしないといけないので、筆者的には面倒だなと思ってます。
終わりに
今回はターミナル上でNCBIデータを取得する方法をまとめました。
ncbi-acc-downloadは、アクセッション番号を利用できる点がありがたいですよね。
更に便利なものが見つかれば更新します。