DDBJのMass Submission Systemにゲノムアセンブリとアノテーション情報を登録しようとしたが、かなり苦労したので備忘録としてまとめた。
なお、@piroyonさんの記事に大変お世話になった。ありがとうございました。
本記事も、piroyonさんの記事に沿って準備を進めた。
(MSSへの登録、かなり大変だと思うが、ネット上に情報が少ない...)
fastaファイルとgffファイルの準備
まず、ゲノム配列(genome.fa)とアノテーション情報(ann.gff3)を用意した。
配列の間に"//"を入れた。
perl -pe 'print "//\n" if /^>/ && $. > 1' genome.fa > genome_md.fa
配列と//の間には改行を入れた。また、最後のコンティグの最後のところには//が入らなかったので、手動で入れた。
次にcontigが現れる順序をそろえた。
sort -k1,1 -k4,4n ann.gff3 > ann_sorted.gff3
seqkit sort -n genome_md.fa > genome_md_submit.fa
次に、gffファイルの中身を整形する。
agat_convert_sp_gxf2gxf.pl --gtf ann_sorted.gff -o agat.gff3
sed -i -e "s/3'-UTR/three_prime_UTR/" agat.gff3
sed -i -e "s/5'-UTR/five_prime_UTR/" agat.gff3
tomlファイルの準備
メタデータを準備する。
以下を参考にして、.tomlファイルを作った。
アノテーションファイルを作成する
gfftoddbjを使った。
インストール
インストールが特に大変だった(ddbjの公式で、もっと楽なツール作ってくれると嬉しいなあ |ू•ω•) )。
私は、conda環境でインストールしたが、
conda create -n ddbj -c bioconda -c conda-forge gff3toddbj
conda activate ddbj
上記の公式で言及されている方法でインストールしたが、どうにも動かなかった。
そこで、piroyonさんの記事を参考に、パッケージをそれぞれ別でインストールした。
conda create -n ddbj -c bioconda -c conda-forge python=3.9
conda activate ddbj
conda install conda-forge::biopython==1.79
conda install bioconda::bcbio-gff==0.6.9
conda install bioconda::gff3toddbj
python ver.3.9の環境を作り、biopythonとbcbio-gffをインストールしてから、gff3toddbjをインストールするのが鍵のよう。(以下はやっとインストールできた時の私のツイート)
locus_tagの設定
このままgff3-to-ddbjを動かすと、出力されるアノテーションファイルにlocus_tagが表示されなかった。
上記の整形したgffファイルについて、エクセル上で以下のようにlocus_tagを追加した。
例えば、遺伝子名が以下のように設定されている場合、locus_tagを最後に書き入れる。
ID=gene_00001;
↓
ID=gene_00001;locus_tag=gene_00001;
ちなみにlocus_tag_prefixは、BioSampleの登録時に同時に申請するのでお忘れなく。(後からでも申請はできるが、変更はできないよう)
実際に動かす
実際に以下のように動かす
gff3-to-ddbj --gff3 agat.gff3 --fasta genome_md_submit.fa --locus_tag_prefix locustag --metadata meta.toml --transl_table 1 --output genome.ann
ファイルの確認
UMEを用いて、ファイルを確認する。
Parserでfaファイルとannファイルの構文とフォーマットを検証した。
さらに、transCheckerでCDSの翻訳についてエラーがないか確認した。
(これをしないと、MSSで送ってもキュレーションの段階で確認するように指摘される。そもそもParserでの確認は送付前に必須。)
エラーについて
エラーが出たら、それぞれ解消する。
以下を参考にする。