NCBIのゲノムデータをパパッとダウンロードしたい!
バイオインフォマティクス解析で、複数のゲノムデータをNCBIから取得する機会が多々あります。
ですが、一つ一つ検索して・・・、クリックで移動して・・・ダウンロード形式選択して・・・ってめんどくさい!!!
そこで、今回はMacターミナル上で一気にデータをダウンロードする方法を2通り紹介します。
ncbi-acc-downloadを使おう
筆者のおすすめ方法です。
ncbi-acc-downloadというアクセッション番号を入力することでターミナル上でデータをダウンロードする方法です。
パッケージはpip
, conda
に入っています。まずconda install
でインストールしましょう。
conda install -c bioconda ncbi-acc-download
これで完了です。
使い方
基本的にこれでOKです
ncbi-acc-download -F fasta -o preferance_directory/output.fasta ACCESSION_NUMBER
オプション-F
はファイル形式(fasta, genbank, gffなど・・・)、-o
でアウトプットファイルの場所/名前を指定です。
複数ファイルを一気にダウンロードする場合、ACCESSION_NUMBERを変数にして、while read
やfor
でループさせましょう。他にもオプションがあります。ダウンロードファイルを一つにまとめたりすることもできます。--help
で見れるので、活用するといいのではないでしょうか。
なぜおすすめなの
アクセッション番号でダウンロードできで嬉しいのは、BLAST
の結果を利用できるためです。バイオインフォマティクスで誰もが使うであろうブラウザ版BLAST、その結果からデータをダウンロードし、別のプログラムで利用したりするでしょう。BLASTの結果に出てくるデータを一気に取得できれば、楽なのです。
嬉しいことに、ブラウザ版のBLAST結果ファイルでは、アクセッション番号が列でまとめられて記載されてます。
筆者はこちらを編集し、欲しいデータを一気にダウンロードしてます(他にも楽な方法があるかもですが・・・)
wgetを使おう
もう一つの方法として、wget
でデータを取得するやり方があります。
NCBIのデータはftpサーバーに保管されてます。データのURLを入力すれば、wget
で容易にダウンロードできますね。
こちらはこれでOKです。
wget -P preferance_path/ URL
オプション-P
で保存先を指定できます。
シンプルでわかりやすいですが、URLをいちいちコピペしたりしないといけないので、筆者的には面倒だなと思ってます。
終わりに
今回はターミナル上でNCBIデータを取得する方法をまとめました。
ncbi-acc-downloadは、アクセッション番号を利用できる点がありがたいですよね。
更に便利なものが見つかれば更新します。