重复序列注释有两种常用策略,基于同源序列相似性和基于重复序列结构特征。其中基于同源序列相似性注释序列的常用工具就是RepeatMasker
原本的RepeatMasker的手动安装需要配置很多文件,还好我们有bioconda,我们利用bioconda进行RepeatMasker的依赖环境配置
conda create -p ~/opt/biosoft/RepeatMasker repeatmasker
经过我测试,bioconda安装的 RepeatMakser 存在一些问题,因此我们需要进行替换
wget http://www.repeatmasker.org/RepeatMasker-open-4-0-8.tar.gz
tar xf RepeatMasker-open-4-0-8.tar.gz
rm -rf ~/opt/biosoft/RepeatMasker/share/RepeatMasker/
mv RepeatMasker ~/opt/biosoft/RepeatMasker/share/
RepeatMasker自带了一些数据库,但是不包含RepBase
, 你需要在http://www.girinst.org注册才能下载。我下载的是RepBaseRepeatMaskerEdition-20181026.tar.gz
tar xf RepBaseRepeatMaskerEdition-20181026.tar.gz
cp Libraries/* ~/opt/biosoft/RepeatMasker/share/RepeatMasker/Libraries/
在RepeatMasker环境下配置运行环境
source activate repeatmasker
conda activate ~/opt/biosoft/RepeatMasker/
cd ~/opt/biosoft/RepeatMasker/share/RepeatMasker
perl ./configure
配置比对工具
配置完成
我随便用了一个基因组进行测试
~/opt/biosoft/RepeatMasker/share/RepeatMasker/RepeatMasker -e ncbi Athaliana.fa -dir .
结果表明能顺利运行。
RepeatMasker比较常用的参数如下
-
-e
: 搜索引擎,默认都选择ncbi -
-pa
: 并行计算,多线程 -
-s
,-q
,-qq
: 搜索速度,速度和敏感度成反比 -
-lib
: 自定义重复数据库 -
-species
: 指定物种,例如human, mouse, arabidopsis -
-gff
: 额外输出GFF文件
输出结果中, 以.masked结尾的是用N屏蔽后的序列,以tal结尾的则是统计各种重复序列的比例。
网友评论