[備忘録]fastq-dlを使ってNCBIからメガデータをダウンロードする
はじめに&今回の概要
こんにちは。
オミクス解析を使って軟体動物の研究をしている某大学院生です。
今回はNCBIのSRAからメタデータ (e.g. トランスクリプトーム) をダウンロードする方法を書き残します。*主に自分用のメモです
手順
- fastq-dlの入手
- データダウンロード
- 複数データを一括ダウンロード
用語
fastq-dlとは??
https://github.com/rpetit3/fastq-dl
1. fastq-dlの入手
condaを使ってインストールする。
minicondaもしくはanacondaをインストール後、下記のコマンドを実行
*各サイト参照
conda create -n fastq-dl -c conda-forge -c bioconda fastq-dl
conda activate fastq-dl
2. データダウンロード
cd "xxx/yyy/path" #ダウンロード場所をpathしておく
fastq-dl --accession SRRxxxxx
2. 複数データを一括ダウンロード
以下の "Download_List.txt" と "SRA_download.sh" を作成し、ターミナルで "まとめてダウンロード" を実行する。
Download_List.txt_ダウンロードするSRR番号をまとめてtextに保存
SRR00000
SRR00001
SRR00002
SRR00003
SRR00004
SRA_download.sh
cat Download_List.txt |
while read SRR_ID
do
cmd='fastq-dl --accession ${SRR_ID}';
eval ${cmd}
done
まとめてダウンロード
cd "xxx/yyy/path" #ダウンロード場所をpathしておく
sh SRA_download.sh