LoginSignup
2
2

More than 1 year has passed since last update.

NCBIからデータをターミナル上でダウンロードしよう

Posted at

NCBIのゲノムデータをパパッとダウンロードしたい!

バイオインフォマティクス解析で、複数のゲノムデータをNCBIから取得する機会が多々あります。
ですが、一つ一つ検索して・・・、クリックで移動して・・・ダウンロード形式選択して・・・ってめんどくさい!!!

そこで、今回はMacターミナル上で一気にデータをダウンロードする方法を2通り紹介します。

ncbi-acc-downloadを使おう

筆者のおすすめ方法です。
ncbi-acc-downloadというアクセッション番号を入力することでターミナル上でデータをダウンロードする方法です。
パッケージはpip, condaに入っています。まずconda installでインストールしましょう。

conda install -c bioconda ncbi-acc-download

これで完了です。

使い方

基本的にこれでOKです

ncbi-acc-download -F fasta -o preferance_directory/output.fasta ACCESSION_NUMBER

オプション-Fはファイル形式(fasta, genbank, gffなど・・・)、-oでアウトプットファイルの場所/名前を指定です。
複数ファイルを一気にダウンロードする場合、ACCESSION_NUMBERを変数にして、while readforでループさせましょう。他にもオプションがあります。ダウンロードファイルを一つにまとめたりすることもできます。--helpで見れるので、活用するといいのではないでしょうか。

なぜおすすめなの

アクセッション番号でダウンロードできで嬉しいのは、BLASTの結果を利用できるためです。バイオインフォマティクスで誰もが使うであろうブラウザ版BLAST、その結果からデータをダウンロードし、別のプログラムで利用したりするでしょう。BLASTの結果に出てくるデータを一気に取得できれば、楽なのです。
嬉しいことに、ブラウザ版のBLAST結果ファイルでは、アクセッション番号が列でまとめられて記載されてます。
筆者はこちらを編集し、欲しいデータを一気にダウンロードしてます(他にも楽な方法があるかもですが・・・)

wgetを使おう

もう一つの方法として、wgetでデータを取得するやり方があります。
NCBIのデータはftpサーバーに保管されてます。データのURLを入力すれば、wgetで容易にダウンロードできますね。
こちらはこれでOKです。

wget -P preferance_path/ URL

オプション-Pで保存先を指定できます。
シンプルでわかりやすいですが、URLをいちいちコピペしたりしないといけないので、筆者的には面倒だなと思ってます。

終わりに

今回はターミナル上でNCBIデータを取得する方法をまとめました。
ncbi-acc-downloadは、アクセッション番号を利用できる点がありがたいですよね。
更に便利なものが見つかれば更新します。

2
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
2