EnTAP のセットアップ が終わったら、あとは実行するだけである。
1.アノテーションされた遺伝子のタンパク質配列を用意する
gffread
を使うと、ゲノムの fasta と gff ファイルから簡単に転写産物や翻訳産物の fasta を得ることができる。
インストールは mamba install gffread
で。使い方は、
gffread -g GENOME.fasta -t TRANSCRIPTS.fasta -x CDS.fasta -y PROTEINS.fasta final_annotation_1.gff
-g でゲノムの fasta ファイルを、オプションなしで gff ファイルを指定。-t で転写産物 (mRNA) の fasta が書き出されるファイル名を、-x でUTRを除いた CDS の配列だけの fasta が書き出されるファイル名を、-y でタンパク質の fasta が書き出されるファイル名を指定。とりあえずタンパク質の fasta だけが欲しい場合は、以下のようにすればOK。
gffread -g GENOME.fasta -y PROTEINS.fasta final_annotation_1.gff
同様に、転写産物の fasta だけを書き出させることも可能。
あと、先に samtools faidx GENOME.fasta
をしておくと動作が速くなる。
2.EnTAP の実行
conda activate ENTAP
~/local/EnTAP/bin/EnTAP --runP -i PROTEINS.fasta \
-d ~/local/EnTAP/bin/uniprot_sprot.dmnd \
-d ~/local/EnTAP/bin/uniprot_tremble.dmnd \
-d ~/local/EnTAP/bin/plants.dmnd \
-t 16 \
--ini ~/local/EnTAP/entap_config.ini
膨大な数の相同性検索が行われるわけだが、多分1日くらいで終わる。diamond という爆速ツールの恩恵を噛み締めよう。
結果は entap_output
というディレクトリに書き出されるが、その中の final_results
に final_annotations_lvl0.tsv
あるいは final_annotations_lvl1.tsv
というファイルに用がある。レベル0とか1とかいうのは Gene Ontology のレベルの話なので、余計なアノテーションを除去する今回の目的においてはどちらの tsv ファイルでもよい。コンタミがどうの的なファイルも出てくるがとりあえず無視してよい。中身についての詳しい説明もしない。Excelでも開けられるので、各自結果を眺めながら自習すること。フィルターとして重要なのは 29 列目の EggNOG Tax Scope
という項目で、私の場合はここが Viridiplantae
または Eukaryotes
とされたものだけを残すことにしている。そうすると2倍体植物なら3万強の遺伝子が残るはずだ(欲張りな人はここが空欄になったものだけを捨てればよいのではないかな)。
cat final_annotations_lvl0.tsv | grep -e "Viridiplantae" -e "Eukaryotes" | cut -f 1 > filtered_genes_list.txt
これで余計にアノテーションされた遺伝子を除いた遺伝子リストができるので、final_annotations_1.gff からそれらだけを抽出する。
cat final_annotations_1.gff | grep -f filtered_genes_list.txt > ANNOTATIONS.gff
これで玄人っぽいゲノムアノテーションが得られるというわけ。