conda で簡単インストール
conda create -n repeatmasker_v4.1.2.p1
conda activate repeatmasker_v4.1.2.p1
conda install -c bioconda repeatmasker=4.1.2.p1
Repbase のデータベースを設置
conda でインストールした場合、RepeatMasker のデータベース自体は ~/XXXX/envs/repeatmasker_v4.1.2.p1/share/RepeatMasker/Libraries にあるが、ここに Repebase をコピーして RepBase をデータベースに追加しようとするとエラーになった。(これはなぜかわからない。。もしかすると何か他のことが原因だったのかも。)
仕方ないので、RepeatMasker の Libraroes ディレクトリ 自体を他の場所に移動して実行。
# Libraries をコピー
cp -r ~/XXXX/envs/repeatmasker_v4.1.2.p1/share/RepeatMasker/Libraries ~/Libraries
# Repbase を Libraries の中にコピーする。
tar xvf RepBaseRepeatMaskerEdition-20181026.tar
cp Libraries/* ~/Libraries
# addRepBase.pl を実行し Repbase を RepeatMasker.lib にマージする。
~/XXXX/envs/repeatmasker_v4.1.2.p1/share/RepeatMasker/addRepBase.pl -libdir ~/Libraries
# ~/Libraries をまるごと、conda 内のディレクトリに戻す (その前に元のLibraries ディレクトリ を待避)
mv ~/XXXX/envs/repeatmasker_v4.1.2.p1/share/RepeatMasker/Libraries ~/XXXX/envs/repeatmasker_v4.1.2.p1/share/RepeatMasker/Libraries_bk
mv ~/Libraries ~/XXXX/envs/repeatmasker_v4.1.2.p1/share/RepeatMasker/
実行
export BLASTDB_LMDB_MAP_SIZE=100000000
RepeatMasker -e rmblast -pa 8 -dir output -xsmall -gff -species rice -nolow $GENOME
- BLASTDB_LMDB_MAP_SIZE makeblastdbでエラーになったので付与。
- -nolow Does not mask low_complexity DNA or simple repeats
遺伝子アノテーションの精度をあげるためにゲノムをリピートするとき、-nolowをつけないと遺伝子領域もマスクされることがある。 - -xsmall ソフトマスキング (リピート領域をNでマスクせずに小文字にする)
- -gff ゲノム上のrepeat領域をgffを出力
--> -nolow オプションは保留。