登録したいゲノム配列(FASTA)とそのアノテーション(gff)があるものとする
ゲノム配列のFASTAファイルを整形する
- 配列間に「//」を入れる
perl -pe 'print "//\n" if /^>/ && $. > 1' my_genome.fa > submit_genome.fa
gffとFASTAで scaffold/chromosome が現れる順序を揃える
- ここでは名前順にしよう
- gff
sort -k1,1 -k4,4n my.gff > sorted.gff
- FASTA(seqkit を使う)
seqkit sort -n submit_genome.fa > submit_sorted_genome.fa
gff をなんかきれいにするよ
- AGAT を使う
agat_convert_sp_gxf2gxf.pl --gtf sorted.gff -o agat.gff3
できたgffの 3'-UTR/5'-UTR を書き換える
sed -i -e "s/3'-UTR/three_prime_UTR/" agat.gff3
sed -i -e "s/5'-UTR/five_prime_UTR/" agat.gff3
メタデータの .toml ファイルを作る OR 冒頭部分を別立てで作る
アノテーションのtsvファイルを作る
-
gfftoddbj を使う
- venv(この例では pytyon3.12)で環境を作ってインストール:
python -m venv gff3toddbj source ~/gff3toddbj/bin/activate pip install bcbio-gff==0.6.9 pip install biopython==1.79 pip install gff3toddbj
実行
gff3-to-ddbj \
--gff3 agat.gff3 \
--fasta submit_sorted_genome.fa \
--metadata mymetadata.toml \ # tomlファイル作った場合
--locus_tag_prefix MYOWNPREFIX \ # これは効いてないので先に何とかしておく...
--transl_table 1 \
--output myawesome_output.ann # この行を削除すると標準出力に
登録可能な状態になったかUME で調べる
- メモリ量設定のConfigが2Gbまでしかないので、足りない場合は直接
UME.sh
を編集する
cat UME.sh
#! /bin/sh
MAXMEM=200G
java -Xmx${MAXMEM} -jar lib/UME.jar
- 使い方は上記リンクの通り
エラー潰しの軌跡
JP0035:ER2:STX:ANN:Line [5]: One of [ab_name] values must be corresponding to the value of [contact].
-
ab_name
は 「姓」「カンマ」「名の冒頭」「ピリオド」でSuzuki,T.
(仮名)スペース入れずに書き、contact
は「名」「スペース」「姓」Taro Suzuki
(仮名)と書く
🦑追記する予定