解析用データのダウンロード
菌の配列データをダウンロードしておく
https://docs.qiime2.org/2022.8/data-resources/?highlight=silva
Silva 138 99% OTUs from 515F/806R region of sequences
3V4Vはこれ
で、ファイル名(silva-138-99-515-806-nb-classifier.qza)を確認
cd downloads
ls
で、qiime2に入れといて
mv silva-138-99-515-806-nb-classifier.qza ~/qiime2
cd lsでかくにん
データファイル名の変更
qiime2 を作って、その中にシルバからのデータとfastqファイル(解析データ入ってる)を入れます
操作はすべてqiime2のなかでやります!!!
まずは解析用ディレクトリを作成し、そこにqzaデータをすべて移す。
mkdir qiime2
cd mv failname(qza) qiime2
cd qiime2
ls
入ったことを確認したら、
Fastqファイルを格納するディレクトリを作成し、そこに入る
mkdir fastq
cd fastq
ダウンロードしたSRAファイル(SRR_Acc)をFASTQに変換するにはfastq-dumpコマンドで変換する
cat ../SRR_Acc_LIST.txt | xargs -n1 fastq-dump --gzip --split-files
ls
ファイルがID(各ナンバーごとに)ごとに2つあればよい。
(number)_1.fastq.gz
(number)_2.fastq.gz
ファイル数をカウントしたかったら
ls * | ws\c -l
で。
fastqディレクトリの中にgzが必要なだけあればよい。
サンプルは特定の書き方
samplename_S1_L001_R1_001.fastq/gz
samplename_S2_L001_R2_00.fastq/gz
をしないと認識してもらえないので、
名前を変える場合はかえます。
rename 's/_1/_S1_L001_R1_001/' *.fastq.gz
rename 's/_2/_S1_L001_R2_001/' *.fastq.gz
ls
なまえがもともとあっている場合はOKです。
トリミング
まずは、
unzip zzz.zip
で解答して、
Fastqのファイルの中に、筋層解析結果のGzだけを残した上でやる。
qiime2の中にfastq(解析データ)を入れる
ということです。
conda activate qiime2-2022.8
cd qiime2
qiime tools import \
--type 'SampleData[PairedEndSequencesWithQuality]' \
--input-path fastq \
--input-format CasavaOneEightSingleLanePerSampleDirFmt \
--output-path demux_.qza
こっから_のあとに名前つけ始めましょ!!!!!!!!
FastQファイルをインポートします。
--input-path fastq paird
はfastq.gzファイルが入っているディレクトリ名を
--input-format
CasavaOneEightSingleLanePerSampleDirFmt \
はどのようなフォーマットのディレクトリであるのかを表す。
続いてデータをウェブで見るために、qzvファイルとします。
qiime demux summarize \
--i-data demux_.qza \
--o-visualization demux_.qzv
saved Visualization to: demux.qzv
と表示されればOKです。
ここで指定したqzvのdファイル名を、次の--iで書かないとちゃんとできないからね。
qiime Viewで閲覧しましょう
DADA2処理
NGSの場合、今回は、
Fw:TCG TCG GCA GCG TCA GAT GTG TAT AAG AGA CAG-----CCT ACG GGN GGC WGC AG
Rv:GTC TCG TGG GCT CGG AGA TGT GTA TAA GAG ACA G------GA CTA CHV GGG TAT CTA ATC C
空白の空いたところより右が16SrRNAとの相同部分であるため、切るのは
自分で実際に見てみてgunzipしてさ
qiime dada2 denoise-paired \
--verbose \
--p-n-threads 0 \
--p-trim-left-f 23 \
--p-trim-left-r 21 \
--i-demultiplexed-seqs demux_.qza \
--p-trunc-len-f ?~300 \
--p-trunc-len-r ?~300 \
--o-table table_.qza \
--o-representative-sequences rep-seqs_.qza \
--o-denoising-stats stats_.qza \
SavedでOK
これfastpで処理してるから大丈夫もっと短くなってるし。リードの末端1も切ってるし
qiime2 viewにてみたものを、ながさあわせてtruncにしてね
もしfastpで処理済みなら、
qiime dada2 denoise-paired \
--verbose \
--p-n-threads 0 \
--i-demultiplexed-seqs demux_.qza \
--p-trunc-len-f 0 \
--p-trunc-len-r 0 \
--o-table table_.qza \
--o-representative-sequences rep-seqs_.qza \
--o-denoising-stats stats_.qza \
でこの後はサマリーファイルの作成だって
qiime metadata tabulate \
--m-input-file stats_.qza \
--o-visualization stats_.qzv
これもQiimeViewで見るらしいけど、見方がよくわかんないね
qiime feature-table summarize \
--i-table table_.qza \
--o-visualization table_.qzv \
--m-sample-metadata-file metadata_.txt
Saved OK
qiime feature-table tabulate-seqs \
--i-data rep-seqs_.qza \
--o-visualization rep-seqs_.qzv
Saved OK
table_.qzv : Feature tableの各種数値を確認するらしい
rep-seqs_.qzv : 代表配列が確認できる
ついに系統解析
公式サイトから、以下のうちいずれかのデータベースをダウンロードする。
・Silva 132 99% OTUs full-length sequences
・Silva 132 99% OTUs from 515F/806R region of sequences
・Greengenes 13_8 99% OTUs full-length sequences
・Greengenes 13_8 99% OTUs from 515F/806R region of sequences
Silva は現在も更新し続けているデータベースである。生データが V3 または V4 領域の場合は 515F/806R region of sequences を使用し、他の領域の配列であれば full-length sequences を使用する。
Greengenes は現在更新されていないデータベースであり、新種の細菌は登録されていない。OTU で細菌を分類していた頃に使われていた。
特別な理由がなければ Silva をダウンロードするとよい。第2版ではggだが、Silvaにしようか!
塩基データrep-seqs.qzaから細菌分類データtaxonomy.qzaを作成する。
qiime feature-classifier classify-sklearn \
--i-classifier silva-138.1-ssu-nr99-341f-805r-classifier.qza \
--i-reads rep-seqs_.qza \
--o-classification taxonomy_.qza
qiime metadata tabulate \
--m-input-file taxonomy_.qza \
--o-visualization taxonomy_.qzv
存在量のデータであるtableと合わせてみる
qiime taxa barplot \
--i-table table_.qza \
--i-taxonomy taxonomy_.qza \
--m-metadata-file metadata_.txt \
--o-visualization taxa-bar-plots_.qzv
これてOK