一:下载软件安装包
https://github.com/rmhubley/RepeatMasker.git
http://www.repeatmasker.org
由于后面的最新rebase要注册收费才能下载,所以我就没有按照最新的RepeatMasker(最新为RepeatMasker-4.1.0.tar.gz](http://www.repeatmasker.org/RepeatMasker-4.1.0.tar.gz)**
,按照了一个低版本的4.0.7就可以用18年的rease了。)
二:下载器需要的数据库
RepeatMasker自带了一些数据库,但是不包含RepBase, 你需要在https://www.girinst.org/accountservices/register.php注册才能下载最新的。所以我我下载了一个4.0.7版本的repeatmasker,这样就不用最新的rebase了。
tar -zxvf RepBaseRepeatMaskerEdition-20170127.tar.gz
cp Libraries/* /data1/spider/ytbiosoft/soft/RepeatMasker/Libraries
三:配置搜索需要的软件
其中Cross_Match或者 RMBlast或HMMER或ABBlast/WUBlast WUBlast/ABBlast,至少安装其中一个,选择数字来设置这些软件的路径(自己安太麻烦,用conda安装就好了,记得配置是也要在这个安装依赖软件的conda环境下哦)。
我安装了RMBlast。
安装结果
报错:
perl: symbol lookup error:**** undefined symbol: Perl_xs_apiversion_bootcheck
其实就是编译的perl跟服务器内置perl版本不一样冲突,由于我是用conda环境下perl编译的,所以才会出现这样的报错,因此退出conda环境,用服务器内置/usr/bin/perl进行编译就好了。
五:测试
最后就可以运行程序了,用拟南芥基因组做了个测试。
/home/spider/project/yuantao/soft/RepeatMasker/RepeatMasker -e ncbi GCF_000001735.4_TAIR10.1_genomic.fna.gz -dir .
结果
RepeatMasker比较常用的参数如下:
-e: 搜索引擎,默认都选择ncbi
-pa: 并行计算,多线程
-s, -q, -qq: 搜索速度,速度和敏感度成反比
-lib: 自定义重复数据库
-species: 指定物种,例如human, mouse, arabidopsis
-gff: 额外输出GFF文件
输出结果中, 以.masked结尾的是用N屏蔽后的序列,以tal结尾的则是统计各种重复序列的比例。
输出结果
最后需要的包链接在这里:
链接:https://pan.baidu.com/s/1dFxpfZF5oauYoWkHukC4Aw
提取码:8t06
网友评论