[備忘録]sratoolを使ってNCBIからメガデータをダウンロードする
はじめに&今回の概要
こんにちは。
普段、オミクス解析を使って軟体動物の研究をしている大学院生です。
今回はNCBIのSRAからメタデータ (e.g. トランスクリプトーム) をダウンロードする方法を紹介します。
ここは主に自分用のメモで、詳しい扱いはNCBIさんへ。
手順
- sra-toolkitの入手
- データダウンロード
- 複数データを一括ダウンロード
用語
SRA toolkitとは??
NCBIのSRAデータにアクセスして、必要なデータを扱うことができるツール群のこと。
↓詳しいことはNCBIのサイト参照
https://www.ncbi.nlm.nih.gov/books/NBK569238/
1. sra-toolkitの入手
condaやbrewを使ってインストールできる。
minicondaもしくはanacondaをインストール後、下記のコマンドを実行
*各サイト参照
conda install -c bioconda sra-tools
2. データダウンロード
cd "xxx/yyy/path" #ダウンロード場所をpathしておく
fastq-dump --split-files SRRxxxxx --gzip
--split-files #ペアエンドシーケンスの時に必要
--gzip #圧縮
2. 複数データを一括ダウンロード
以下の "Download_List.txt" と "SRA_download.sh" を作成し、ターミナルで "まとめてダウンロード" を実行する。
SRR00000
SRR00001
SRR00002
SRR00003
SRR00004
cat Download_List.txt |
while read SRR_ID
do
cmd='fastq-dump --split-files ${SRR_ID};
gzip ${SRR_ID}*fastq';
eval ${cmd}
done
cd "xxx/yyy/path" #ダウンロード場所をpathしておく
sh SRA_download.sh
コメント
パソコンのスペックにもよるが、複数データを一括ダウンロードすると、1サンプルあたり30min~(MacBookproを使用)と結構時間かかる。もっといい方法あるかもしれません(汗。
引用