1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Mass Submission System @ DDBJへのゲノムアセンブリの登録[備忘録]

Last updated at Posted at 2025-10-19

DDBJのMass Submission Systemにゲノムアセンブリとアノテーション情報を登録しようとしたが、かなり苦労したので備忘録としてまとめた。

なお、@piroyonさんの記事に大変お世話になった。ありがとうございました。
本記事も、piroyonさんの記事に沿って準備を進めた。
(MSSへの登録、かなり大変だと思うが、ネット上に情報が少ない...)

fastaファイルとgffファイルの準備

まず、ゲノム配列(genome.fa)とアノテーション情報(ann.gff3)を用意した。
配列の間に"//"を入れた。

perl -pe 'print "//\n" if /^>/ && $. > 1' genome.fa > genome_md.fa

配列と//の間には改行を入れた。また、最後のコンティグの最後のところには//が入らなかったので、手動で入れた。

次にcontigが現れる順序をそろえた。

sort -k1,1 -k4,4n ann.gff3 > ann_sorted.gff3

seqkit sort -n genome_md.fa > genome_md_submit.fa

次に、gffファイルの中身を整形する。

agat_convert_sp_gxf2gxf.pl --gtf ann_sorted.gff -o agat.gff3
sed -i -e "s/3'-UTR/three_prime_UTR/" agat.gff3
sed -i -e "s/5'-UTR/five_prime_UTR/" agat.gff3

tomlファイルの準備

メタデータを準備する。
以下を参考にして、.tomlファイルを作った。

アノテーションファイルを作成する

gfftoddbjを使った。

インストール

インストールが特に大変だった(ddbjの公式で、もっと楽なツール作ってくれると嬉しいなあ |ू•ω•) )。
私は、conda環境でインストールしたが、

conda create -n ddbj -c bioconda -c conda-forge gff3toddbj

conda activate ddbj

上記の公式で言及されている方法でインストールしたが、どうにも動かなかった。
そこで、piroyonさんの記事を参考に、パッケージをそれぞれ別でインストールした。

conda create -n ddbj -c bioconda -c conda-forge python=3.9
conda activate ddbj
conda install conda-forge::biopython==1.79
conda install bioconda::bcbio-gff==0.6.9
conda install bioconda::gff3toddbj

python ver.3.9の環境を作り、biopythonとbcbio-gffをインストールしてから、gff3toddbjをインストールするのが鍵のよう。(以下はやっとインストールできた時の私のツイート)

locus_tagの設定

このままgff3-to-ddbjを動かすと、出力されるアノテーションファイルにlocus_tagが表示されなかった。
上記の整形したgffファイルについて、エクセル上で以下のようにlocus_tagを追加した。

例えば、遺伝子名が以下のように設定されている場合、locus_tagを最後に書き入れる。
ID=gene_00001;
↓
ID=gene_00001;locus_tag=gene_00001;

ちなみにlocus_tag_prefixは、BioSampleの登録時に同時に申請するのでお忘れなく。(後からでも申請はできるが、変更はできないよう)

実際に動かす

実際に以下のように動かす

gff3-to-ddbj --gff3 agat.gff3 --fasta genome_md_submit.fa --locus_tag_prefix locustag --metadata meta.toml --transl_table 1 --output genome.ann

ファイルの確認

UMEを用いて、ファイルを確認する。
Parserでfaファイルとannファイルの構文とフォーマットを検証した。
さらに、transCheckerでCDSの翻訳についてエラーがないか確認した。
(これをしないと、MSSで送ってもキュレーションの段階で確認するように指摘される。そもそもParserでの確認は送付前に必須。)

エラーについて

エラーが出たら、それぞれ解消する。
以下を参考にする。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?