SSRIT:简单重复序列识别工具

作者: 生信修炼手册 | 来源:发表于2018-09-07 09:34 被阅读41次

欢迎关注"生信修炼手册"

微卫星microsatellite, 又叫做简单重复序列(simple sequence repeats, SSR)或者短串联重复序列(short tandem repeats, STR), 指的是以2到10bp的短序列为单位,重复出现多次所构成的DNA序列。

重复的最小单位称之为motif, 示例如下

agagagagagag

上述片段就是一段SSR序列,motif为ag, 重复出现了6次。

微卫星DNA种类多,分布广,在基因组中平均50bp就有一个重复序列;在不同种族,不同人群中重复单位和重复次数都大不相同,构成了SSR遗传多态性。

SSRIT是一款识别简单重复系列的软件,官网如下:

http://archive.gramene.org/db/markers/ssrtool

该软件的官网提供了在线服务,用法如下

第一步,选择motif的最小长度和最小重复次数

参数a用于选择motif的最小长度,可选范围为2到10bp; 参数b用于选择最小重复次数,建议最小重复次数为5以上。

第二步,输入fasta格式的序列

在文本框中,输入fasta格式的序列,然后点击右下角的FIND SSRs提交即可。

输出结果如下

第一列为SSR区域的ID,由序列标识符和数字编号构成,第二列为Motif的碱基序列,第三列为重复次数,第四列和第五列对应SSR区域的起始和终止位置,第六列为输入序列的总长度。

也可以下载脚本本地运行,安装过程如下

wget ftp://ftp.gramene.org/pub/gramene/archives/software/scripts/ssr.pl

该软件采用perl语言开发,直接下载对应的perl脚本就可以了,这个perl脚本写的是比较简陋的,并没有提供帮助文档之类的信息。从源代码可以看出,用法如下

perl ssr.pl input.fasta  > ssr.txt

只需要提供fasta格式的输入文件就可以了,一次可以提供多个fasta文件,示例文件如下

>seq1
agagattaggatcgatcgcgctctctctctctctctcgatcgagatcgat
ggccatcatcatcatcatcattgagatatagcgcgatatcgagagatctc
agaatagatatcgcgctatagagagatcgagagagagtaga
>seq2
agagataggaatatgagatagcgggggggggggggcgctatacgcgctcg
gagagagatctctctctctcttatagagatcgatcgactagctagatata
agactcactcactcactcactcactcagcgcgat

输出结果通过重定向保存在ssr.txt文件中,该文件的内容如下

seq1 1 3 cat 6 54 71 141
seq2 1 4 actc 6 103 126 134

输出内容和在线服务基本一致,第2列和第三列不需要看。需要注意的是,同样的输入文件,在线服务识别到了4个SSR区域,而本地版只识别到了2个,这个是因为参数设定不同。

本地版的motif长度和重复序列次数只能通过修改源代码实现,对应代码如下

my @specs = ([2,9],  #dinucl. with >= 9 repeats
             [3,6],  #trinucl. with >= 6 repeats
             [4,5]); #tetranucl. with >= 5 repeats

默认情况下,对于2bp的motif, 要求最小重复次数为9次,ct这个motif只出现了8次,所以过滤掉了,如果想要和官网保持一致,可以修改源代码,然后再次运行就可以了。

扫描关注微信号,更多精彩内容等着你!

相关文章

  • SSRIT:简单重复序列识别工具

    欢迎关注"生信修炼手册"! 微卫星microsatellite, 又叫做简单重复序列(simple sequenc...

  • 基因组重复序列检测:RepeatMasker的安装及使用

    RepeatMasker是重复序列检测的常用工具,通过与参考数据库的相似性比对来准确识别或屏蔽基因组中的重复序列,...

  • 全长转录本SSR预测

    SSR-简单重复序列预测(MISA) MISA是使用 perl 编写的一支程序,能识别出序列中的微卫星和复合微卫星...

  • RepeatMasker

    What RepeatMasker是一款基于Library-based,通过相似性比对来识别重复序列,可以屏蔽序列...

  • 基因组注释理论基础

    基因组注释主要包括四个方面: 重复序列识别 序列比对方法 RepeatScout、LTR-finder、T...

  • RepeatMasker基于同源相似性实现重复序列注释

    重复序列注释有两种常用策略,基于同源序列相似性和基于重复序列结构特征。其中基于同源序列相似性注释序列的常用工具就是...

  • SSR

    SSR检测 也称简单重复序列,是广泛分布在真核生物基因组中的简单重复序列。 微卫星标记(microsatellit...

  • TRF--Tandem Repeat Finder

    TRF软件是基因组注释中常用于检测序列中串联重复序列的软件,无需安装,使用简单方便。 1. 重复序列分为串联重复序...

  • JASPAR:转录因子motif数据库

    motif是一段重复出现在基因序列上的一段片段,通常具有高度重复的碱基序列,是转录因子或者DNA结合蛋白识别并结合...

  • 196第七次班会锦囊

    四化: 简单化:复杂的事情简单化 重复化:简单的事情重复化 工具化:重复的事情工具化 部落化:工具的事情圈子化 重...

网友评论

    本文标题:SSRIT:简单重复序列识别工具

    本文链接:https://www.haomeiwen.com/subject/gvmqgftx.html