美文网首页生信相关基因组生信
RepeatMasker基于同源相似性实现重复序列注释

RepeatMasker基于同源相似性实现重复序列注释

作者: xuzhougeng | 来源:发表于2019-02-28 14:21 被阅读82次

    重复序列注释有两种常用策略,基于同源序列相似性和基于重复序列结构特征。其中基于同源序列相似性注释序列的常用工具就是RepeatMasker

    原本的RepeatMasker的手动安装需要配置很多文件,还好我们有bioconda,我们利用bioconda进行RepeatMasker的依赖环境配置

    conda create -p ~/opt/biosoft/RepeatMasker repeatmasker
    

    经过我测试,bioconda安装的 RepeatMakser 存在一些问题,因此我们需要进行替换

    wget http://www.repeatmasker.org/RepeatMasker-open-4-0-8.tar.gz
    tar xf RepeatMasker-open-4-0-8.tar.gz
    rm -rf ~/opt/biosoft/RepeatMasker/share/RepeatMasker/
    mv RepeatMasker ~/opt/biosoft/RepeatMasker/share/
    

    RepeatMasker自带了一些数据库,但是不包含RepBase, 你需要在http://www.girinst.org注册才能下载。我下载的是RepBaseRepeatMaskerEdition-20181026.tar.gz

    tar xf RepBaseRepeatMaskerEdition-20181026.tar.gz
    cp Libraries/* ~/opt/biosoft/RepeatMasker/share/RepeatMasker/Libraries/
    

    在RepeatMasker环境下配置运行环境

    source activate repeatmasker
    conda activate ~/opt/biosoft/RepeatMasker/
    cd ~/opt/biosoft/RepeatMasker/share/RepeatMasker
    perl ./configure
    
    配置比对工具 配置完成

    我随便用了一个基因组进行测试

    ~/opt/biosoft/RepeatMasker/share/RepeatMasker/RepeatMasker -e ncbi Athaliana.fa -dir .
    

    结果表明能顺利运行。

    RepeatMasker比较常用的参数如下

    • -e: 搜索引擎,默认都选择ncbi
    • -pa: 并行计算,多线程
    • -s, -q, -qq: 搜索速度,速度和敏感度成反比
    • -lib: 自定义重复数据库
    • -species: 指定物种,例如human, mouse, arabidopsis
    • -gff: 额外输出GFF文件

    输出结果中, 以.masked结尾的是用N屏蔽后的序列,以tal结尾的则是统计各种重复序列的比例。

    相关文章

      网友评论

        本文标题:RepeatMasker基于同源相似性实现重复序列注释

        本文链接:https://www.haomeiwen.com/subject/pkbfuqtx.html