前言
动植物基因组注释包括重复序列注释以及基因结构注释,重复序列注释是注释中非常重要的环节,主要包括的软件有Trf、LTR_Finder、Piler、RepeatScout、RepeatModeler、Repeatmasker和repeatproteinmask。小编这次介绍Trf软件的安装与使用,Trf注释的是串联重复序列(以特定的重复单元首尾相接排列在基因组上,形成重复序列)
下载
官网链接:Tandem Repeats Finder Welcome Page,小编这次安装的是v4.10.0
wget https://github.com/Benson-Genomics-Lab/TRF/archive/master.zip
unzip master.zip ;cd TRF-master
./configure --prefix=/Bioinfo/software/trf-4.10
make;make install
使用
使用模板:trf sequence.fa 2 7 7 80 10 50 500 -f -d -m #trf File Match Mismatch Delta PM PI Minscore MaxPeriod
File: FASTA 格式的DNA 输入序列
Match, Mismatch, and Delta: 匹配上,没匹配上和插入的权重,建议2, 7 7
PM and PI :PM是指比上的概率,可选择数值为80 和75,PI 是插入的概率,可选择数值为10 和20,最好效果的参数是PM=80 和PI=10
Minscore: 被匹配上的串联重复序列的最小分值。比如,我们设定了Match=2,Minscore=50, 那么就要求最少有25bp 被完全比上(比如,5bp 的重复单元,重复5 次)
Maxperiod: 最大的重复单元bp 数
下面是一些可选的选项
-m: 该参数将输入文件中trf序列屏蔽为N输出
-f: 该参数将输出每一串联重复序列两侧200bp 的侧翼序列,输出到比对文件中
-d: 该参数将产生一个屏蔽文件,记录了与列表文件一样的信息,及比对信息,可用于后续程序的处理
输出文件中.dat文件对生信分析最友好,参数详情参考官网 :GitHub - Benson-Genomics-Lab/TRF: Tandem Repeats Finder: a program to analyze DNA sequences
网友评论