とりあえず目標遺伝子のchip-seqとかrna-seqのfastqファイルが欲しい。
https://www.ncbi.nlm.nih.gov/sra
こういうところで比較実験とかやってるいい感じのサンプルを探しましょう。
いい感じの原著論文を見つけたらstudyとかを遡ってGSEナンバー(プロジェクトごとに振られてるID的なやつ)を手に入れるといいです。
GSE12345みたいな文字列がそれです。
ここのキーワードのところにGSEナンバー入れると.fastqのsampleがずらっと表示される。srrって書いてあるやつが一番下の層に振られてるIDっぽい。
SRR1234567...的に表記されてて、だいたい研究ごとに連番になってる
ここからまとめてお手元にダウンロードしたい。楽して
ダウンロードするための手立て
https://www.ncbi.nlm.nih.gov/sra/docs/toolkitsoft/
ここでsratoolkitをOSに合わせてダウンロードする。
落としたら解凍しよう。finderでダブルクリックすればできる。
sratoolkit.2.9.6-mac64をいい感じのディレクトリに移すと良い。今回はホームとかで、
そしたらsratoolkit.2.9.6-mac64の中の/binにパスを通す必要がある。terminalで同じディレクトリに移動してパスを通す。
cd
export PATH=${PATH}:~/sratoolkit.2.9.6-mac64/bin
これでprefetchとfastq-dumpが使えるようになる。
prefetch#なんか出たらok
fastq-dump#なんか出たらok
prefetch
SRRナンバーに対応して.sra形式のファイルを落とす。
この中にfastqも含まれてる。下のディレクトリにncbi/public/sra作って、その中に落としてくれるのでかくにんするとよい。
prefetch SRR1234567
fastq-dump
.sraからfastqを抜き取ってくれる。reverseもくっついてきちゃうので --split-filesをくっつけると正しく分離できて良い。
fastq-dump --split-files SRR1234567.sra
容量圧縮するのやなんでrmで元のファイル消してgzipで.fastq.gzに圧縮
rm SRR12345"$i".sra
gzip SRR1234567_1.fastq
gzip SRR1234567_2.fastq
まとめ
cd
export PATH=${PATH}:~/sratoolkit.2.9.6-mac64/bin
for i in {01..10}
do
prefetch SRR12345$i
done
cd ncbi/public/sra
for i in {01..10}
fastq-dump --split-files SRR12345"$i".sra
rm SRR12345"$i".sra
gzip SRR12345"$i"_1.fastq
gzip SRR12345"$i"_2.fastq
done
Appendix
容量圧迫を避けるために外部ストレージで作業したほうがいい
次やる時はこうする
cd /Volumes/USBNAME/#これで外部ストレージに移動。まじか
for i in {1..10}
do
wget ftp://ftp-trace.ncbi.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR1234/
SRR12345"$i"/SRR12345"$i".sra #wget有能 (brew install wgetとかはあらかじめやっとく)
done