美文网首页基因组基因组
整理一下重复序列屏蔽

整理一下重复序列屏蔽

作者: 多啦A梦的时光机_648d | 来源:发表于2019-12-03 10:20 被阅读0次

    由于之前利用repeatmasker自身的lib进行屏蔽时发现,lib里没有我研究的物种,要是不指定物种的话,repeat的鉴别率只有2.16%。所以自由自己建repeat数据库作为repeatmasker的输入。

    一:利用MITE-Hunter识别mite序列(安装 NCBI BLAST,Muscle, mdust等)

    下载mite-hunter并进行配置

    perl MITE_Hunter_Installer.pl \
      -d /opt/biosoft/MITE_Hunter/ \  #MITE_hunter解压缩后的文件夹路径
      -f /opt/biosoft/blast-2.29/formatdb \ # formatdb的路径
      -b /opt/biosoft/blast-2.29/blastall \ #blastall的路径
      -m /opt/biosoft/mdust/mdust \ # mdust的路径
      -M /opt/biosoft/muscle/muscle #muscle的路径
    

    运行程序:

    nohup perl $/your path/MITE_Hunter/MITE_Hunter_manager.pl -i /your path/assembly.fasta -g nephila_mite -c 8 -n 5 -P 0.35 -S 12345678 &
    

    输出文件:
    MITE-Hunter的输出文件包括分组后的一致性TE序列及其对应多重联配文件。
    最后合格的序列,或者直接将输出文件,Step8_*.fa” 和 “Step8_singlet.fa”候选的MITE序列,你可以将其命名为MITE.lib,用作后续的RepeatMasker输入.

    cat *Step8.*fa *Step8_singlet.fa > laruinae_MITE.lib
    

    二:利用LTR_harvest寻找LTR(其实叫DAWGPAWS)

    下载地址:

    https://excellmedia.dl.sourceforge.net/project/dawgpaws/dawgpaws/dawpaws-1.0/dawgpaws-1.0.tar.gz
    

    安装运行:

    nohup /your path/LTR_harvest/bin/gt suffixerator -db /your path/assembly.fasta -indexname laurinae -tis -suf -lcp -des -ssp -sds -dna &
    
    nohup /your path/LTR_harvest/bin/gt ltrharvest -index laurinae -similar 90 -vic 10 -seed 20 -seqids yes -minlenltr 100 -maxlenltr 7000 -mintsd 4 -maxtsd 6 -motif TGCA -motifmis 1 > laurinae_harvest_scn &
    

    三:利用LTR_finder寻找LTR

    下载地址:

    https://github.com/xzhub/LTR_Finder
    

    配置运行:

    nohup /your path/LTR_Finder/source/ltr_finder /your path/assembly.fasta > ltr.finder.scn &
    

    四:利用LTR_retriever整合LTR_harvest与LTR_finder的结果

    下载地址:

    https://github.com/oushujun/LTR_retriever
    

    配置运行:

    nohup /your path/LTR_retriever/LTR_retriever -genome /you path/assembly.fasta -inharvest /your path/laurinae_harvest_scn -infinder /your path/ltr.finder.scn -threads 20 &
    

    结果如下:(第二个为去冗余的结果)


    输出结果

    五:将MITE-Hunter的结果与LTR_retriever的结果整合作为repeatmasker的输入

    cat laurinae_MITE.lib laurinae_fasta_LTRlib.fa > MITE_LTR.lib
    /your path/RepeatMasker -lib MITE_LTR.lib -dir . $REFERECE
    

    相关文章

      网友评论

        本文标题:整理一下重复序列屏蔽

        本文链接:https://www.haomeiwen.com/subject/apzqgctx.html