18S rRNA遺伝子配列の分類割当を行う
QIIME2で18S rRNA遺伝子配列の分類割当を実行する際、公式にはSILVAデータベースが16S/18S rRNAのどちらの配列も内包しているためこちらを使うことが推奨されている(リンク)。
ただ、実際にこのデータベースを用いて分類すると細菌に配列が割当されることが多くある。
18S rRNAデータベースであるThe PR2 databasesは現在、version 5.0.0まで公開されており、こちらのデータベースをQIIME2で分類可能な形に変換していく。
実行コマンド
2024年9月時点で最新のバージョンであるPR2 version 5.0.0では、
マイクロバイオーム解析ツールであるmouturに互換性のある形式で18S rRNA遺伝子配列のfastaファイルと、それに対応するtaxonomyファイルが用意されているため、これらを用いる。
# 1. PR2データベースのダウンロード
wget https://github.com/pr2database/pr2database/releases/download/v5.0.0/pr2_version_5.0.0_SSU_mothur.fasta.gz
wget https://github.com/pr2database/pr2database/releases/download/v5.0.0/pr2_version_5.0.0_SSU_mothur.tax.gz
gunzip pr2_version_5.0.0_SSU_mothur.fasta.gz
gunzip pr2_version_5.0.0_SSU_mothur.tax.gz
ダウンロートが完了したら、得られた配列からtaxonomy.txtを作成し、fastaファイルとともにQIIME2にqza形式で入力する。
# タクソノミーファイルの処理
awk 'BEGIN{FS="\t"; OFS="\t"}
{
gsub(/;/, ";", $2); # セミコロンの前後のスペースを削除
gsub(/^;|;$/, "", $2); # 先頭と末尾のセミコロンを削除
if ($2 == "") $2 = "Unclassified"; # 空の場合は"Unclassified"を設定
print $1, $2;
}' pr2_version_5.0.0_SSU_mothur.tax > pr2_taxonomy.txt
# QIIME 2アーティファクトの作成
qiime tools import \
--type 'FeatureData[Sequence]' \
--input-path pr2_version_5.0.0_SSU_mothur.fasta \
--output-path pr2_sequences.qza
qiime tools import \
--type 'FeatureData[Taxonomy]' \
--input-format HeaderlessTSVTaxonomyFormat \
--input-path pr2_taxonomy.txt \
--output-path pr2_taxonomy.qza
# 分類器の学習(オプション)
qiime feature-classifier fit-classifier-naive-bayes \
--i-reference-reads pr2_sequences.qza \
--i-reference-taxonomy pr2_taxonomy.qza \
--o-classifier pr2_classifier.qza
Naive baysで分類器を作成したら、こちらを用いて18S rRNA遺伝子配列の分類割当を実施する。