MSS submit への道

Last updated at 2025-06-12Posted at 2025-06-12

登録したいゲノム配列（FASTA）とそのアノテーション（gff）があるものとする

ゲノム配列のFASTAファイルを整形する

配列間に「//」を入れる

perl -pe 'print "//\n" if /^>/ && $. > 1' my_genome.fa > submit_genome.fa

gffとFASTAで scaffold/chromosome が現れる順序を揃える

ここでは名前順にしよう

sort -k1,1 -k4,4n my.gff > sorted.gff

FASTA（seqkit を使う）

seqkit sort -n submit_genome.fa > submit_sorted_genome.fa

gff をなんかきれいにするよ

AGAT を使う

agat_convert_sp_gxf2gxf.pl --gtf sorted.gff -o agat.gff3

できたgffの 3'-UTR/5'-UTR を書き換える

sed -i -e "s/3'-UTR/three_prime_UTR/" agat.gff3
sed -i -e "s/5'-UTR/five_prime_UTR/" agat.gff3

メタデータの .toml ファイルを作る OR 冒頭部分を別立てで作る

ここに従う　若しくは
これを見ながらExcelかなんかで作ってtsv化

アノテーションのtsvファイルを作る

gfftoddbj を使う

venv（この例では pytyon3.12）で環境を作ってインストール：

python -m venv gff3toddbj
source ~/gff3toddbj/bin/activate
pip install bcbio-gff==0.6.9
pip install biopython==1.79
pip install gff3toddbj

実行

gff3-to-ddbj \
  --gff3 agat.gff3 \ 
  --fasta submit_sorted_genome.fa \ 
  --metadata mymetadata.toml \       # tomlファイル作った場合
  --locus_tag_prefix MYOWNPREFIX \   # これは効いてないので先に何とかしておく...
  --transl_table 1 \                 
  --output myawesome_output.ann      # この行を削除すると標準出力に

登録可能な状態になったかUME で調べる

メモリ量設定のConfigが2Gbまでしかないので、足りない場合は直接 UME.shを編集する

cat UME.sh
#! /bin/sh
MAXMEM=200G
java -Xmx${MAXMEM} -jar lib/UME.jar

使い方は上記リンクの通り

エラー潰しの軌跡

JP0035:ER2:STX:ANN:Line [5]: One of [ab_name] values must be corresponding to the value of [contact].

ab_name は「姓」「カンマ」「名の冒頭」「ピリオド」で Suzuki,T. （仮名）スペース入れずに書き、contact は「名」「スペース」「姓」Taro Suzuki （仮名）と書く

🦑追記する予定

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up