美文网首页程序员基因组组装生信专题
基因组注释--重复序列注释(一):Trf软件安装与使用

基因组注释--重复序列注释(一):Trf软件安装与使用

作者: geneonto | 来源:发表于2020-11-01 11:15 被阅读0次

    前言

        动植物基因组注释包括重复序列注释以及基因结构注释,重复序列注释是注释中非常重要的环节,主要包括的软件有Trf、LTR_Finder、Piler、RepeatScout、RepeatModeler、Repeatmasker和repeatproteinmask。小编这次介绍Trf软件的安装与使用,Trf注释的是串联重复序列(以特定的重复单元首尾相接排列在基因组上,形成重复序列)

    下载

        官网链接:Tandem Repeats Finder Welcome Page,小编这次安装的是v4.10.0

    wget https://github.com/Benson-Genomics-Lab/TRF/archive/master.zip

    unzip master.zip ;cd TRF-master

    ./configure --prefix=/Bioinfo/software/trf-4.10

    make;make install

    使用

     使用模板:trf sequence.fa 2 7 7 80 10 50 500 -f -d -m  #trf File Match Mismatch Delta PM PI Minscore MaxPeriod

    File: FASTA 格式的DNA 输入序列

    Match, Mismatch, and Delta: 匹配上,没匹配上和插入的权重,建议2, 7 7 

    PM and PI :PM是指比上的概率,可选择数值为80 和75,PI 是插入的概率,可选择数值为10 和20,最好效果的参数是PM=80 和PI=10

    Minscore: 被匹配上的串联重复序列的最小分值。比如,我们设定了Match=2,Minscore=50, 那么就要求最少有25bp 被完全比上(比如,5bp 的重复单元,重复5 次)

    Maxperiod: 最大的重复单元bp 数

    下面是一些可选的选项

    -m: 该参数将输入文件中trf序列屏蔽为N输出

    -f: 该参数将输出每一串联重复序列两侧200bp 的侧翼序列,输出到比对文件中

    -d: 该参数将产生一个屏蔽文件,记录了与列表文件一样的信息,及比对信息,可用于后续程序的处理

    输出文件中.dat文件对生信分析最友好,参数详情参考官网 :GitHub - Benson-Genomics-Lab/TRF: Tandem Repeats Finder: a program to analyze DNA sequences

    相关文章

      网友评论

        本文标题:基因组注释--重复序列注释(一):Trf软件安装与使用

        本文链接:https://www.haomeiwen.com/subject/pmrevktx.html