RepeatModeler + RepeatMasker

作者: 陈洪瑜 | 来源:发表于2019-04-22 14:35 被阅读0次

    在基因组注释中第一步就是重复序列的屏蔽,目前常用的从头注释pipeline就是RepeatModeler + RepeatMasker。

    1. 软件安装

    RepeatMasker软件的使用需要应用一些其他的相关软件,同时RepeatModeler软件核心是RECON和RepeatScout,所以需要先配套安装好需要的软件才行;

    TRF

    trf下载地址:https://tandem.bu.edu/trf/trf409.linux64.download.html

    mv trf409.linux64 trf

    chmod a+x trf

    RMblast

    2.60版本安装方法(未安装成功)

    ncbi-blast下载地址:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.6.0/ncbi-blast-2.6.0+-src.tar.gz

    isb 下载地址:http://www.repeatmasker.org/isb-2.6.0+-changes-vers2.patch.gz

    tar zxvf ncbi-blast-2.6.0+-src.tar.gz

    gunzip isb-2.6.0+-changes-vers2.patch.gz

    cd ncbi-blast-2.6.0+-src

    patch -p1 < ../isb-2.6.0+-changes-vers2.patch

    cd c++

    ./configure --with-mt --prefix=对应的路径 --without-debug && make && make intsall

    切换为安装2.2.28版本

    ncbi-blast 2.2.28版本下载地址:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.2.28/ncbi-blast-2.2.28+-x64-linux.tar.gz

    ncbi-rmblastn 2.2.28版本下载地址:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/rmblast/2.2.28/ncbi-rmblastn-2.2.28-x64-linux.tar.gz

    tar zxvf ncbi-blast-2.2.28+-x64-linux.tar.gz

    tar zxvf ncbi-rmblastn-2.2.28-x64-linux.tar.gz

    cp -R ncbi-rmblastn-2.2.28/* ncbi-blast-2.2.28+/

    rm -rf ncbi-rmblastn-2.2.28

    mv ncbi-blast-2.2.28+ rmblast-2.2.28

    /usr/local/rmblast-2.2.28/bin/rmblastn -h

    RECON

    下载地址:http://repeatmasker.org/RepeatModeler/RECON-1.08.tar.gz

    tar zxvf RECON-1.08.tar.gz

    cd RECON-1.08/src

    make && make install

    NSEG

    下载地址:ftp://ftp.ncbi.nih.gov/pub/seg/nseg/*

    make

    RepeatScout

    下载地址:http://www.repeatmasker.org/RepeatScout-1.0.5.tar.gz

    RepeatMasker

    下载地址:http://repeatmasker.org/RepeatMasker-open-4-0-7.tar.gz

    tar zxvf RepeatMasker-open-4-0-7.tar.gz

    perl ./configure 软件配置

        <PRESS ENTER TO CONTINUE> # 回车继续

        Enter path [ ]: # 输入perl程序路径 /usr/bin/perl

        Enter path [ ]: # 输入RepeatMasker要安装的路径 /public4/chy/software/RepeatMasker/RepeatMasker

        Enter path [ ]: # 输入TRF路径(地址1) /public4/chy/software/RepeatMasker

        Add a Search Engine: # 选择一个搜索引擎(需要事先安装好),并输入引擎路径(地址2)

        1. CrossMatch: [ Un-configured ]

        2. RMBlast - NCBI Blast with RepeatMasker extensions: [ Un-configured ] /public4/chy/software/RepeatMasker/rmblast-2.2.28/bin

        3. WUBlast/ABBlast (required by DupMasker): [ Un-configured ]

        4. HMMER3.1 & DFAM: [ Un-configured 

       5. Done

        Do you want RMBlast to be your default # 设置默认搜索引擎

         search engine for Repeatmasker? (Y/N) [ Y ]:

         # 可以安装多个引擎,完成后按5

        Congratulations! RepeatMasker is now ready to use. # 提示已经安装完成

          # RepeatMasker已经安装完成,下一步将之前下载解压的Repbase文件COPY到RepeatMasker安装路径下的Libraries文件夹中即可

    RepeatModeler

    下载地址:http://repeatmasker.org/RepeatModeler/RepeatModeler-open-1.0.11.tar.gz

    tar zxvf RepeatModeler-open-1.0.11.tar.gz

    perl ./configure 软件配置 (与RepeatMasker类似)

    Repbase数据库

    按理应该在http://www.girinst.org/server/RepBase/index.php注册下载,但是目前打不开网站,可以在百度云盘http://pan.baidu.com/s/1c2zSMKo下载

    2. 脚本运行

    2.1 建立数据库

    ${RepeatModelerPath}/BuildDatabase -name${database_name}${fasta}

    2.2 构建library

    ${RepeatModelerPath}/RepeatModeler -pa 30 -database${database_name}>& run.out &

    结果文件夹种的consensi.fa.classified可以作为library用于RepeatMasker进行重复序列的屏蔽。

    2.3 重复序列的屏蔽

    $RepeatMasker -pa 16 \

      -lib consensi.fa.classified \

      -dir Repeat_result -html -gff species.genome.fasta

    注意,RepeatMasker的结果文件夹Repeat_result需要提前手动建立,否则程序运行完成后结果文件会丢失。

    无library直接使用RepeatMasker中的RepBase数据库来计算重复序列,若RepBase数据库对目标物种的覆盖不好,则很可能只找到较少的重复序列。此时,使用RepeatModeler构建library就很有必要。

    参考:http://www.repeatmasker.org/RepeatModeler/

    https://sr-c.github.io/2018/05/27/RepeatModeler-engine/

    相关文章

      网友评论

        本文标题:RepeatModeler + RepeatMasker

        本文链接:https://www.haomeiwen.com/subject/impygqtx.html