More than 1 year has passed since last update.

RepeatModeler/RepeatMaskerを使ってゲノムにSoftmaskを掛ける

Last updated at 2022-10-13Posted at 2022-05-01

RepeatModelerはゲノム配列の総当り検索によってゲノム中の反復配列を同定するツール。
RepeatMaskerは反復配列をNや小文字に置換（mask）するツール。Nに置換するすることをHardmask、小文字に置換することをSoftmaskという。そしてSoftmaskingをすることによって、Brakerによる遺伝子予測の精度が向上する。

1. まずはツールのインストール

git clone https://github.com/oushujun/EDTA.git
cd EDTA
mamba env create -f EDTA.yml
conda activate EDTA

2. Build Database

まず、BLASTデータベースを作成。

BuildDatabase -name DATABASE GENOME.fasta

-nameはBLASTデータベースのファイル群のPREFIX。好きに付けてよい。
GENOME.fastaはアセンブルで得られたゲノム配列のFASTAファイル。
マシンのメモリは十分大きいはずなのにメモリ不足のエラーが出たときには、
export BLASTDB_MDB_MAP_SIZE=100000000 などとして、プログラムが使用するメモリの上限を上げてやるとよいらしい（菅さん@県立広島大より）。

3. RepeatModeler

RepeatModeler -database DATABASE -pa 12

-pa は並列プロセス数で、1プロセスにつきCPUを4コア使う。ジョブを12分割すると48コアのマシンをフルに使うことになる。結果はRM_で始まるディレクトリに出力。

4. RepeatMasker

上の出力のconsensi.fa.classifiedを入力に使う。結果はカレントディレクトリに出力。

RepeatMasker -pa 12 -lib RM_XXXXX/consensi.fa.classified GENOME.fasta

5. ProcessRepeats

反復をSoftmasking。RepeatMaskerがNに置換してしまった配列を小文字にして戻す。入力には上の結果のGENOME.fasta.cat.gzを使う。出力のうち、GENOME.fasta.masked が目的の産物。

ProcessRepeats -maskSource　GENOME.fasta -xsmall -gff GENOME.fasta.cat.gz

-gffで出力にGFFファイルも追加。IGV等でのブラウジングに使えるので出しとくと便利。まあこの段階ではなくてもよい。
GENOME.fasta.maskedをmvコマンドやcpコマンドを使ってアノテーション作業のワーキングディレクトリに保存。ファイル名はGenome.softmasked.fastaとした方がよいかも。