More than 3 years have passed since last update.

【初心者向け】SRA toolkitを使ってSRAからFASTQをダウンロード

Last updated at 2023-02-28Posted at 2022-03-20

[備忘録]sratoolを使ってNCBIからメガデータをダウンロードする

はじめに&今回の概要

こんにちは。
普段、オミクス解析を使って軟体動物の研究をしている大学院生です。
今回はNCBIのSRAからメタデータ (e.g. トランスクリプトーム) をダウンロードする方法を紹介します。
ここは主に自分用のメモで、詳しい扱いはNCBIさんへ。

SRA toolkitとは??
NCBIのSRAデータにアクセスして、必要なデータを扱うことができるツール群のこと。
↓詳しいことはNCBIのサイト参照
https://www.ncbi.nlm.nih.gov/books/NBK569238/

condaやbrewを使ってインストールできる。
minicondaもしくはanacondaをインストール後、下記のコマンドを実行
＊各サイト参照

conda install -c bioconda sra-tools

cd "xxx/yyy/path" #ダウンロード場所をpathしておく
fastq-dump --split-files SRRxxxxx --gzip

--split-files　＃ペアエンドシーケンスの時に必要
--gzip ＃圧縮

以下の　"Download_List.txt"　と　"SRA_download.sh"　を作成し、ターミナルで　"まとめてダウンロード"　を実行する。

Download_List.txt_ダウンロードするSRR番号をまとめてtextに保存

SRR00000
SRR00001
SRR00002
SRR00003
SRR00004

SRA_download.sh

cat Download_List.txt | 
while read SRR_ID
do
	cmd='fastq-dump --split-files ${SRR_ID};
	gzip ${SRR_ID}*fastq';
	eval ${cmd}
done

まとめてダウンロード

cd "xxx/yyy/path" #ダウンロード場所をpathしておく
sh SRA_download.sh

パソコンのスペックにもよるが、複数データを一括ダウンロードすると、1サンプルあたり30min~(MacBookproを使用)と結構時間かかる。もっといい方法あるかもしれません(汗。