美文网首页基因组基因组组装
利用LTR_retriever整合LTR数据集

利用LTR_retriever整合LTR数据集

作者: 多啦A梦的时光机_648d | 来源:发表于2019-10-23 10:53 被阅读0次

    下载地址

    一:安装

    1. 可以conda安装或自己手动安装
    $conda create -n LTR_retriever
    $conda activate LTR_retriever
    $conda install -y -c conda-forge perl perl-text-soundex
    $conda install -y -c bioconda cd-hit repeatmasker
    $git clone https://github.com/oushujun/LTR_retriever.git
    $./LTR_retriever/LTR_retriever -h
    
    1. 除此之外还需要安几个依赖的软件
    1. makeblastdb, blastn, and blastx in the BLAST+ package (ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/)
    2. cd-hit-est in the CDHIT package (http://weizhongli-lab.org/cd-hit/) OR blastclust in the BLAST package (ftp://ftp.ncbi.nlm.nih.gov/blast/executables/legacy/2.2.25/)
    3. hmmsearch in the HMMER package (http://hmmer.org/; v3.1b2 or higher)
    4. RepeatMasker (http://www.repeatmasker.org/)
    

    其中安装RepeatMasker需要一个Dfam.hmm以及RepBase RepeatMasker Edition,可以在这下载:

    RepBase RepeatMasker Edition: https://pan.baidu.com/s/1c2zSMKo
    Dfam.hmm:                     https://www.dfam.org/releases/Dfam_3.1/families/Dfam.embl.gz
    

    RepeatMasker比较常用的参数如下:

    -e: 搜索引擎,默认都选择ncbi
    -pa: 并行计算,多线程
    -s, -q, -qq: 搜索速度,速度和敏感度成反比
    -lib: 自定义重复数据库
    -species: 指定物种,例如human, mouse, arabidopsis
    -gff: 额外输出GFF文件
    
    1. 开始安装
    $perl ./configure
    

    然后修改LTR_retriever的'paths'文件:

    $vim /your_path_to/LTR_retriever/paths
    

    修改:

    BLAST+=/your_path_to/BLAST+2.2.30/bin/
    RepeatMasker=/your_path_to/RepeatMasker4.0.0/
    HMMER=/your_path_to/HMMER3.1b2/bin/
    CDHIT=/your_path_to/CDHIT4.6.1/
    BLAST=/your_path_to/BLAST2.2.26/bin/ #not required if CDHIT provided
    
    BLAST+=/data1/spider/ytbiosoft/soft/ncbi-blast-2.8.1+/bin/
    RepeatMasker=/data1/spider/ytbiosoft/soft/RepeatMasker-master
    HMMER=/data1/spider/ytbiosoft/soft/hmmer/hmmer-3.2.1/src
    CDHIT=/data1/spider/ytbiosoft/miniconda3/envs/python3/bin/cd-hit
    BLAST=/data1/spider/ytbiosoft/miniconda3/envs/python3/bin/
    

    二:数据输入

    数据有如下两个:

    • Genomic sequence
    • LTR-RT candidates(可以接受多个LTR输入,包括 LTRharvest以及 LTR_FINDER等的输出结果:2个足以)
      两个软件的下载地址:
    LTR_Finder:https://github.com/xzhub/LTR_Finder.git
    LTRharvest:http://genometools.org/
    
    1. LTRharvest


      LTRharvest
    $gt suffixerator \ 
    -db $REFERENCE \ 
    -indexname $SPECIES \ 
    -tis -suf -lcp -des -ssp -sds -dna
     
    $gt ltrharvest \ 
    -index $SPECIES \ 
    -similar 90 -vic 10 -seed 20 -seqids yes \ 
    -minlenltr 100 -maxlenltr 7000 -mintsd 4 -maxtsd 6 \ 
    -motif TGCA -motifmis 1 > $SPECIES.harvest.scn &
    
    1. LTR_Finder
    $tar -zxvf  LTR_Finder.tar.gz
    $cd source && make
    
    $ltr-finder -D 15000 -d 1000 -L 7000 -l 100 -p 20 -C -M 0.9 $REFERENCE > $SPECIES.finder.scn &
    

    三.运行程序(支持一个输入或者多个输入)

    一个输入

    $LTR_retriever -genome $REFERENCE -inharvest $SPECIES.harvest.scn
    

    多个输入

    $LTR_retriever -genome $REFERENCE -inharvest $SPECIES.harvest.scn -infinder $SPECIES.finder.scn -threads 20
    

    输出为$REFERENCE.LTRlib.fa,重命名为LTR.lib,作为后续repeatmasker屏蔽重复时的输入文件。

    相关文章

      网友评论

        本文标题:利用LTR_retriever整合LTR数据集

        本文链接:https://www.haomeiwen.com/subject/rcmhvctx.html