LoginSignup
0
0

More than 3 years have passed since last update.

.fastqをfor回して手軽に落とした話

Last updated at Posted at 2019-05-08

とりあえず目標遺伝子のchip-seqとかrna-seqのfastqファイルが欲しい。

https://www.ncbi.nlm.nih.gov/sra
こういうところで比較実験とかやってるいい感じのサンプルを探しましょう。

いい感じの原著論文を見つけたらstudyとかを遡ってGSEナンバー(プロジェクトごとに振られてるID的なやつ)を手に入れるといいです。
GSE12345みたいな文字列がそれです。

ここのキーワードのところにGSEナンバー入れると.fastqのsampleがずらっと表示される。srrって書いてあるやつが一番下の層に振られてるIDっぽい。
SRR1234567...的に表記されてて、だいたい研究ごとに連番になってる
ここからまとめてお手元にダウンロードしたい。楽して

ダウンロードするための手立て

https://www.ncbi.nlm.nih.gov/sra/docs/toolkitsoft/
ここでsratoolkitをOSに合わせてダウンロードする。
落としたら解凍しよう。finderでダブルクリックすればできる。
sratoolkit.2.9.6-mac64をいい感じのディレクトリに移すと良い。今回はホームとかで、
そしたらsratoolkit.2.9.6-mac64の中の/binにパスを通す必要がある。terminalで同じディレクトリに移動してパスを通す。

cd
export PATH=${PATH}:~/sratoolkit.2.9.6-mac64/bin

これでprefetchとfastq-dumpが使えるようになる。

prefetch#なんか出たらok
fastq-dump#なんか出たらok

prefetch

SRRナンバーに対応して.sra形式のファイルを落とす。
この中にfastqも含まれてる。下のディレクトリにncbi/public/sra作って、その中に落としてくれるのでかくにんするとよい。

prefetch SRR1234567

fastq-dump

.sraからfastqを抜き取ってくれる。reverseもくっついてきちゃうので --split-filesをくっつけると正しく分離できて良い。

fastq-dump --split-files SRR1234567.sra

容量圧縮するのやなんでrmで元のファイル消してgzipで.fastq.gzに圧縮

rm SRR12345"$i".sra

gzip SRR1234567_1.fastq
gzip SRR1234567_2.fastq

まとめ

matomete.txt
cd
export PATH=${PATH}:~/sratoolkit.2.9.6-mac64/bin

for i in {01..10}
do
prefetch SRR12345$i
done

cd ncbi/public/sra

for i in {01..10}
fastq-dump --split-files SRR12345"$i".sra

rm SRR12345"$i".sra

gzip SRR12345"$i"_1.fastq
gzip SRR12345"$i"_2.fastq


done

Appendix

容量圧迫を避けるために外部ストレージで作業したほうがいい
次やる時はこうする

cd /Volumes/USBNAME/#これで外部ストレージに移動。まじか
for i in {1..10}
do
wget ftp://ftp-trace.ncbi.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR1234/
SRR12345"$i"/SRR12345"$i".sra #wget有能 (brew install wgetとかはあらかじめやっとく)
done
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0