SRA Toolkitの導入および使用ガイド
このガイドでは、SRA Toolkitの手動インストールからprefetch
およびfasterq-dump
を使用したデータのダウンロードおよび変換方法を説明します。
1. SRA Toolkitのダウンロード
事前に下記コマンドで使用するサーバーのOSを確認してください
cat /etc/os-release
https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/
から自身の環境に適したファイルのpathを確認してください
# ダウンロードディレクトリに移動
cd /path/to/download/directory
# wgetを使用してSRA Toolkitをダウンロード (CentOSの場合)
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz
2. SRA Toolkitのインストール
ダウンロードしたアーカイブを解凍し、インストールします。
# アーカイブを解凍
tar -xvzf sratoolkit.current-centos_linux64.tar.gz
# 解凍されたディレクトリに移動
cd sratoolkit.*
# バイナリのディレクトリにパスを通す
export PATH=$PATH:$PWD/bin
3. 環境変数の設定
SRA Toolkitのバイナリパスを恒久的に設定するために、~/.bashrc
や~/.bash_profile
に追加します。
echo 'export PATH=$PATH:/path/to/sratoolkit.3.1.1-centos_linux64/bin' >> ~/.bashrc
source ~/.bashrc
4. 動作確認
SRA Toolkitが正しくインストールされたことを確認するために、以下のコマンドを実行します。
which prefetch
vdb-config --interactive
5. ファイルサイズの確認 (やらなくても可)
念のため、ダウンロードするファイルのサイズを事前に確認します。
vdb-dump -R1 --info SRR23448013
vdb-dump -R1 --info SRR23448014
出力例:
acc : SRR00000001
path : https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR23448013/SRR23448013
size : 51,631,104,399
...
acc : SRR00000002
path : https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR23448014/SRR23448014
size : 43,629,994,005
...
6. prefetch
によるダウンロード
一般的には下記コマンドで動く
prefetch SRR00000001
ファイルサイズが50Gを超える場合などは、ファイルサイズの制限を設定してダウンロードします。
# SRR23448013のダウンロード
prefetch --max-size 100G SRR23448013
# SRR23448014のダウンロード
prefetch --max-size 100G SRR23448014
7. fasterq-dump
でFASTQファイルに変換
ダウンロードが完了したら、fasterq-dump
を使用してFASTQファイルに変換します。
single-end
fasterq-dump SRR00000001
pair-endを取り出す場合
# SRR23448013の変換
fasterq-dump --split-files SRR23448013
# SRR23448014の変換
fasterq-dump --split-files SRR23448014
以上で、SRA Toolkitの導入からデータのダウンロードおよびFASTQファイルへの変換が完了します。