美文网首页
生物信息百Jia软件(24):trf

生物信息百Jia软件(24):trf

作者: 基因学苑 | 来源:发表于2019-08-11 22:31 被阅读0次

    欢迎订阅WX众号:基因学苑,更多精彩内容等你发掘!

    基因学苑Q群:32798724

    编者按

    trf可以用于串联重复序列的查找,因为这是基因组上的显著特征,因此查找起来并不难,这个串联重复序列也就是所谓的拷贝数变异CNV。那么为何不能用trf来找CNV呢,其实是完全可以的,现在没法这么用,是因为无法得到全基因组序列。

    一、功能分类: 

    串联重复序列预测

    二、软件官网:

    http://tandem.bu.edu/trf/trf.html

    三、软件介绍:

    Trf是(Tandem Repeat Finder)的简称,用来搜寻DNA 序列中的串联重复序列(即相临的重复两次或多次特定核酸序列模式的重复序列)。重复单元可以从1bp 到500bp,DNA 查询序列大小可以超过5M。

    四、下载安装: 

    wgethttp://tandem.bu.edu/trf/downloads/trf409.linux64

    mv trf409.linux64 trf

    五、软件使用: 

    trf File Match Mismatch Delta PM PI Minscore MaxPeriod 

    软件首先输入要预测串联重复序列的基因组文件,后面跟几组必须的值。

    首先接file,

    File: FASTA 格式的DNA 输入序列.

    Match:匹配上

    Mismatch:没匹配上

    Delta: 插入的权重值。低的权重值将允许更多的“没匹配上”、“插入”的情况。匹配上的权重值“2”已被证明对“没匹配上”、“插 

    入”的罚分权重值在3-7 范围内都是有效的。“没匹配上”、“插入”的罚分权重值将被 自动解释为负值。“3”就比较宽松,“7”就比较严格。

    对Match, Mismatch, Delta 的推 荐缺省值分别为2, 7, 7。 

    PM 是指比上的概率,可选择的PM 数值为80 和75,

    PI 是插入的概率:可选择的PI 数值为10 和20。最好效果的参数是PM=80 和PI=10。参数PM=75 和PI=20 给出的结果与 “PM=80 和PI=10”的结果相似,但运行时间几乎慢了10 倍。 

    Minscore: 被匹配上的串联重复序列的最小分值。比如,我们设定了Match=2,Minscore=50, 那么就要求最少有25bp 被完全比上(比如,5bp 的重复单元,重复5 次)。 

    Maxperiod: 最大的重复单元bp 数。

    下面是一些可选的选项

    -m: 该参数将产生一个将串联重复序列屏蔽为N 的序列文件。

    -f: 该参数将输出每一串联重复序列两侧200bp 的侧翼序列,输出到比对文件中。

    -d: 该参数将产生一个屏蔽文件,记录了与列表文件一样的信息,及比对信息,可用于后续程 序的处理。

    六、使用案例: 

    trfseq.fa2 7 7 80 10 50 500-f-d-m

    七、结果说明:

    最终会生成.mask .dat .html格式结尾的结果文件,

    *.dat “-d”参数产生的屏蔽的串联重复序列信息文件

    *.mask“-m” 参数产生的串联重复序列被屏蔽为N 的序列文件

    *.html 记录串联重复序列信息的文件

    *.txt.html 记录相关串联重复序列比对信息的文件

    相关文章

      网友评论

          本文标题:生物信息百Jia软件(24):trf

          本文链接:https://www.haomeiwen.com/subject/ekjejctx.html