More than 1 year has passed since last update.

EnTAP の実行と結果の解釈

Last updated at 2023-03-24Posted at 2022-10-13

EnTAP のセットアップが終わったら、あとは実行するだけである。

１．アノテーションされた遺伝子のタンパク質配列を用意する

gffread を使うと、ゲノムの fasta と gff ファイルから簡単に転写産物や翻訳産物の fasta を得ることができる。
インストールは mamba install gffread で。使い方は、

gffread -g GENOME.fasta -t TRANSCRIPTS.fasta -x CDS.fasta -y PROTEINS.fasta final_annotation_1.gff

-g でゲノムの fasta ファイルを、オプションなしで gff ファイルを指定。-t で転写産物 (mRNA) の fasta が書き出されるファイル名を、-x でUTRを除いた CDS の配列だけの fasta が書き出されるファイル名を、-y でタンパク質の fasta が書き出されるファイル名を指定。とりあえずタンパク質の fasta だけが欲しい場合は、以下のようにすればOK。

gffread -g GENOME.fasta -y PROTEINS.fasta final_annotation_1.gff

同様に、転写産物の fasta だけを書き出させることも可能。

あと、先に samtools faidx GENOME.fasta をしておくと動作が速くなる。

２．EnTAP の実行

conda activate ENTAP
~/local/EnTAP/bin/EnTAP --runP -i PROTEINS.fasta \
 -d ~/local/EnTAP/bin/uniprot_sprot.dmnd \
 -d ~/local/EnTAP/bin/uniprot_tremble.dmnd \
 -d ~/local/EnTAP/bin/plants.dmnd \
 -t 16 \
 --ini ~/local/EnTAP/entap_config.ini

膨大な数の相同性検索が行われるわけだが、多分１日くらいで終わる。diamond という爆速ツールの恩恵を噛み締めよう。

結果は entap_output というディレクトリに書き出されるが、その中の final_results に final_annotations_lvl0.tsv あるいは final_annotations_lvl1.tsv というファイルに用がある。レベル０とか１とかいうのは Gene Ontology のレベルの話なので、余計なアノテーションを除去する今回の目的においてはどちらの tsv ファイルでもよい。コンタミがどうの的なファイルも出てくるがとりあえず無視してよい。中身についての詳しい説明もしない。Excelでも開けられるので、各自結果を眺めながら自習すること。フィルターとして重要なのは 29 列目の EggNOG Tax Scope という項目で、私の場合はここが Viridiplantae または Eukaryotes とされたものだけを残すことにしている。そうすると2倍体植物なら３万強の遺伝子が残るはずだ（欲張りな人はここが空欄になったものだけを捨てればよいのではないかな）。

cat final_annotations_lvl0.tsv | grep -e "Viridiplantae" -e "Eukaryotes" | cut -f 1 > filtered_genes_list.txt

これで余計にアノテーションされた遺伝子を除いた遺伝子リストができるので、final_annotations_1.gff からそれらだけを抽出する。

cat final_annotations_1.gff | grep -f filtered_genes_list.txt > ANNOTATIONS.gff

これで玄人っぽいゲノムアノテーションが得られるというわけ。

EnTAP の実行と結果の解釈

１．アノテーションされた遺伝子のタンパク質配列を用意する

２．EnTAP の実行

関連