美文网首页基因组
RepeatMasker屏蔽重复

RepeatMasker屏蔽重复

作者: 多啦A梦的时光机_648d | 来源:发表于2019-11-22 20:55 被阅读0次

一:下载软件安装包

https://github.com/rmhubley/RepeatMasker.git
http://www.repeatmasker.org

由于后面的最新rebase要注册收费才能下载,所以我就没有按照最新的RepeatMasker(最新为RepeatMasker-4.1.0.tar.gz](http://www.repeatmasker.org/RepeatMasker-4.1.0.tar.gz)**
,按照了一个低版本的4.0.7就可以用18年的rease了。)

二:下载器需要的数据库

RepeatMasker自带了一些数据库,但是不包含RepBase, 你需要在https://www.girinst.org/accountservices/register.php注册才能下载最新的。所以我我下载了一个4.0.7版本的repeatmasker,这样就不用最新的rebase了。

tar -zxvf RepBaseRepeatMaskerEdition-20170127.tar.gz
cp Libraries/* /data1/spider/ytbiosoft/soft/RepeatMasker/Libraries

三:配置搜索需要的软件

其中Cross_Match或者 RMBlast或HMMER或ABBlast/WUBlast WUBlast/ABBlast,至少安装其中一个,选择数字来设置这些软件的路径(自己安太麻烦,用conda安装就好了,记得配置是也要在这个安装依赖软件的conda环境下哦)。

至少需要安装一个
我安装了RMBlast。
安装结果

报错:

perl: symbol lookup error:**** undefined symbol: Perl_xs_apiversion_bootcheck

其实就是编译的perl跟服务器内置perl版本不一样冲突,由于我是用conda环境下perl编译的,所以才会出现这样的报错,因此退出conda环境,用服务器内置/usr/bin/perl进行编译就好了。

五:测试

最后就可以运行程序了,用拟南芥基因组做了个测试。

/home/spider/project/yuantao/soft/RepeatMasker/RepeatMasker -e ncbi GCF_000001735.4_TAIR10.1_genomic.fna.gz -dir .
结果

RepeatMasker比较常用的参数如下:
-e: 搜索引擎,默认都选择ncbi
-pa: 并行计算,多线程
-s, -q, -qq: 搜索速度,速度和敏感度成反比
-lib: 自定义重复数据库
-species: 指定物种,例如human, mouse, arabidopsis
-gff: 额外输出GFF文件
输出结果中, 以.masked结尾的是用N屏蔽后的序列,以tal结尾的则是统计各种重复序列的比例。


输出结果

最后需要的包链接在这里:
链接:https://pan.baidu.com/s/1dFxpfZF5oauYoWkHukC4Aw
提取码:8t06

相关文章

网友评论

    本文标题:RepeatMasker屏蔽重复

    本文链接:https://www.haomeiwen.com/subject/hazqwctx.html