RepeatModelerはゲノム配列の総当り検索によってゲノム中の反復配列を同定するツール。
RepeatMaskerは反復配列をNや小文字に置換(mask)するツール。Nに置換するすることをHardmask、小文字に置換することをSoftmaskという。そしてSoftmaskingをすることによって、Brakerによる遺伝子予測の精度が向上する。
1. まずはツールのインストール
git clone https://github.com/oushujun/EDTA.git
cd EDTA
mamba env create -f EDTA.yml
conda activate EDTA
2. Build Database
まず、BLASTデータベースを作成。
BuildDatabase -name DATABASE GENOME.fasta
-name
はBLASTデータベースのファイル群のPREFIX。好きに付けてよい。
GENOME.fasta
はアセンブルで得られたゲノム配列のFASTAファイル。
マシンのメモリは十分大きいはずなのにメモリ不足のエラーが出たときには、
export BLASTDB_MDB_MAP_SIZE=100000000
などとして、プログラムが使用するメモリの上限を上げてやるとよいらしい(菅さん@県立広島大より)。
3. RepeatModeler
RepeatModeler -database DATABASE -pa 12
-pa
は並列プロセス数で、1プロセスにつきCPUを4コア使う。ジョブを12分割すると48コアのマシンをフルに使うことになる。結果はRM_
で始まるディレクトリに出力。
4. RepeatMasker
上の出力のconsensi.fa.classified
を入力に使う。結果はカレントディレクトリに出力。
RepeatMasker -pa 12 -lib RM_XXXXX/consensi.fa.classified GENOME.fasta
5. ProcessRepeats
反復をSoftmasking。RepeatMaskerがNに置換してしまった配列を小文字にして戻す。入力には上の結果のGENOME.fasta.cat.gz
を使う。出力のうち、GENOME.fasta.masked
が目的の産物。
ProcessRepeats -maskSource GENOME.fasta -xsmall -gff GENOME.fasta.cat.gz
-gff
で出力にGFFファイルも追加。IGV等でのブラウジングに使えるので出しとくと便利。まあこの段階ではなくてもよい。
GENOME.fasta.masked
をmv
コマンドやcp
コマンドを使ってアノテーション作業のワーキングディレクトリに保存。ファイル名はGenome.softmasked.fasta
とした方がよいかも。
関連
- ゲノムアノテーション(目次)
- BRAKER2 のインストール
- BRAKER2を使ってタンパク質コード領域を予測する
- RNA-seq のノイズを除去してゲノムにマッピングする
- GeMoMa で近縁種のアノテーションを移植する
- [Gffcompare を使って GeMoMa と Braker の差分を取り、アノテーションを補完する]
- EnTAP のセットアップ(https://qiita.com/drk0311/items/7c9910f12a2a959c710d)
- EnTAP の実行と結果の解釈