美文网首页funny生物信息重复序列
TRF(tandem repeats finder)使用手册(三

TRF(tandem repeats finder)使用手册(三

作者: Xylona_MS | 来源:发表于2019-03-23 22:01 被阅读306次

    Command lline: trf File Match Mismatch Delta PM PI Minscore MaxPeriod [options]

    Where:(all weights, penalties, and scores are potive)

    简单理解,即所有参数都为正数。

    FIile = sequences input file(输入文件,需为fasta格式)

    Match = matching weight(匹配上的权重)

    Mismatch = mismatching penalty(没匹配上的罚分)

    Delta = indel penalty(插入缺失罚分)

    匹配权重值2被证明对“未匹配上”和“插入缺失”罚分在3-7范围内是有效的。当Mismatch和indel权重值是负数时,程序中断。3更加宽松,7更加严格。Match,Mismatch和Delta的推荐值是2,7,7

    PM = match probability(匹配概率,整数)

    PI = indel probability(插入缺失概率,整数)

    概率值PM为80和75,PI为10和20是可取的。最佳运行值是OM=80,PI=10(PM=75,PI=20时虽差异不大,但会延长处理时间)。

    Minscore = minimum alignment score to report(匹配上的串联重复序列最小分值,如果设定匹配权重为2,最小分值为50,最佳匹配需要匹配至少25bp(5 copies with a period of size 5))

    MaxPeriod = maxinum period size to report(最大的重复单元bp数,程序将会找到重复单元在1-2000的所有重复,但是可以限制更小的范围)

    [options] = one or more of the following:

     -m       masked sequence file(屏蔽序列文件,在每一个串联重复序列出现的地方(每一个核苷酸)都替换成N显示,“masked”会添加在序列描述行的>后,但实际操作看来,会在扩展名那里显示)

     -f       flanking sequence(标记串联重复序列两侧的侧翼序列,包含500个核苷酸。输出文件扩展名为txt)

    -d       data file(与汇总表格包含相同信息,顺序,加入一致式样?和重复序列,不包含标签,适用于额外的处理)

    -h       suppress html output(禁止html输出,并自动切换到-d参数)

    -r        no redundancy elimination(不去冗余?)

    -l<n>  maximum TR length expected (in millions) (eg, -l 3 or -l=3 for 3 million)(指定的最长TR长度n百万bp,若没有足够的运行内存,数值太高可能会导致错误信息,测试过的最大值是29)   

    -u       打印帮助/使用信息

    -v       打印版本信息

    -ngs   多序列文件上更紧凑?的.dat输出,成功时返回0,可以使用这个参数输入,-用于文件名。短的50个侧翼序列加入到.dat输出文件中。 .dat输出实际上转到标准输出而不是文件。序列标题在输出中显示为@header。仅显示包含重复的标题。

    示例命令行如下:

    (./)trf yourseq.fasta 2 7 7 80 10 50 500 -f -d -m

    相关文章

      网友评论

        本文标题:TRF(tandem repeats finder)使用手册(三

        本文链接:https://www.haomeiwen.com/subject/jmhcvqtx.html