RepeatMasker基于同源相似性实现重复序列注释

作者: xuzhougeng | 来源:发表于2019-02-28 14:21 被阅读82次

重复序列注释有两种常用策略，基于同源序列相似性和基于重复序列结构特征。其中基于同源序列相似性注释序列的常用工具就是RepeatMasker

原本的RepeatMasker的手动安装需要配置很多文件，还好我们有bioconda，我们利用bioconda进行RepeatMasker的依赖环境配置

conda create -p ~/opt/biosoft/RepeatMasker repeatmasker

经过我测试，bioconda安装的 RepeatMakser 存在一些问题，因此我们需要进行替换

wget http://www.repeatmasker.org/RepeatMasker-open-4-0-8.tar.gz
tar xf RepeatMasker-open-4-0-8.tar.gz
rm -rf ~/opt/biosoft/RepeatMasker/share/RepeatMasker/
mv RepeatMasker ~/opt/biosoft/RepeatMasker/share/

RepeatMasker自带了一些数据库，但是不包含RepBase, 你需要在http://www.girinst.org注册才能下载。我下载的是RepBaseRepeatMaskerEdition-20181026.tar.gz

tar xf RepBaseRepeatMaskerEdition-20181026.tar.gz
cp Libraries/* ~/opt/biosoft/RepeatMasker/share/RepeatMasker/Libraries/

在RepeatMasker环境下配置运行环境

source activate repeatmasker
conda activate ~/opt/biosoft/RepeatMasker/
cd ~/opt/biosoft/RepeatMasker/share/RepeatMasker
perl ./configure

配置比对工具

配置完成

我随便用了一个基因组进行测试

~/opt/biosoft/RepeatMasker/share/RepeatMasker/RepeatMasker -e ncbi Athaliana.fa -dir .

结果表明能顺利运行。

RepeatMasker比较常用的参数如下

-e: 搜索引擎，默认都选择ncbi
-pa: 并行计算，多线程
-s, -q, -qq: 搜索速度，速度和敏感度成反比
-lib: 自定义重复数据库
-species: 指定物种，例如human, mouse, arabidopsis
-gff: 额外输出GFF文件

输出结果中, 以.masked结尾的是用N屏蔽后的序列，以tal结尾的则是统计各种重复序列的比例。

网友评论

本文标题：RepeatMasker基于同源相似性实现重复序列注释

本文链接：https://www.haomeiwen.com/subject/pkbfuqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

RepeatMasker基于同源相似性实现重复序列注释

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

生信相关

基因组

生信