RepeatMasker(http://www.repeatmasker.org/)是Arian Smit等人开发的程序,可以筛选DNA序列中的散在重复序列( interspersed repeats)和低复杂序列(low complexity DNA sequences)。
RepeatMasker 在 UCSC Genome Browser以track方式显示,位于repeats模块。
![](https://img.haomeiwen.com/i18613044/d5d49ac908ec070e.png)
rmsk文件下载
http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/rmsk.txt.gz #人类,可以修改参考基因组为hg38
http://hgdownload.cse.ucsc.edu/goldenPath/mm10/database/rmsk.txt.gz #小鼠,也可以修改参考基因组为mm39
![](https://img.haomeiwen.com/i18613044/ee3b9e692e01558a.png)
rmsk.txt 包含多列,各列含义为:
染色体上的范围(可快速检索)
比上的 Smith-Waterman 分值
每千碱基不一致的碱基数
每千碱基缺失的碱基数
每千碱基插入的碱基数
基因组名字
基因组上起始位置
基因组上终止位置
基因组剩余未被屏蔽的长度
正负链信息
重复序列名称
重复序列分类
重复序列家族
重复序列上的起始位置
重复序列上的终止位置
重复序列余下的长度
重复序列 id 号
repeat类型主要包括:
DNA repeat elements (DNA)
Short interspersed nuclear elements (SINE), which include ALUs
散在重复序列是与串联重复序列的组织形式不同的另一类重复序列,是散在方式分布于基因组内的散在重复序列。这类DNA序列一般都是中度重复序列。根据重复序列的长度可以分为短分散重复序列(short interspersed nuclear elements,或short interspersed repeated sequences,SINEs),在人基因组中的拷贝数达10万以上。重复序列单元长度在1,000 bp以上的称为长散在重复序列(longinterspersed nuclear elements或long interspered repeated sequences,LINEs),在人基因组中有上万份拷贝。人类基因组中所有SINE之间的平均距离约为2.2 kb. 在结构基因内部,结构基因之间和基因簇内,以及内含子中都有SINEs,但在结构基因的编码区内中还没有发现。 散在重复序列是转座序列,但基因组中多数的SINE和LINE都存在启动子区的缺失,使转座所需的酶无法编码;或者是一端的反向重复序列缺失,使酶无法识别。
ALU 序列
属于SINE, 人类基因组10%以上
Alu重复序列由于这种DNA序列中有限制性内切核酸酶AluⅠ的识别序列AGCT,所以称为Alu重复序列。典型的人基因组Alu序列长282 bp,由两个同源但有差别的亚基构成。
Alu元件(英语:Alu element)是哺乳动物基因组中SINE家族的一员,约有50万份拷贝。也就是说平均4~6 kb中就有一个Alu序列,中度重复序列DNA。每个长约300bp(282bp)。单个成员的每个末端上有Alu(藤黄节杆菌的缩写)限制酶的切割位点(AGCT),并由此命名。在灵长类的基因组中存在着大量不同种类的Alu元件。事实上,Alu元件是人类基因组中丰度最高的转座元件。它们源于小胞质7SL RNA,后者是信号识别颗粒的成分之一。灵长总目祖先的基因组中发生了7SL RNA成为Alu元件前体的事件。
Alu的插入与若干遗传性人类疾病及多种癌症有关。
对Alu元件的研究对于阐明人类群体遗传学和包括人类演化在内的灵长类进化来说是十分重要的。
AluY 激活 Alu 元件,为了与区分Alu区分,命名为AluY.
Long interspersed nuclear elements (LINE)
重复序列单元长度在1,000 bp以上的散在重复序列称为长散在重复序列。
Long terminal repeat elements (LTR), which include retroposons
长末端重复序列(LTR):反转录病毒的基因组的两端各有一个长末端重复序列(5’—LTR和3’—LTR),不编码蛋白质,但含有启动子,增强子等调控元件,病毒基因组内的LTR可转移到细胞原癌基因邻近处,使这些原癌基因在LTR强启动子和增强子的作用下被激活,将正常细胞转化为癌细胞。
Simple repeats (micro-satellites)
重复单元为1-6个bp, 重复数目在5-50,也有可能更多。
简单重复序列,比如 单碱基重复Tn、 二碱基重复(CG)n、三碱基(CAG)n重复等。
遗传多态性,突变率高于基因组其他区域
Low complexity repeats
低复杂重复, 搜索好久没有找到具体的定义。但是根据hg19_rmsk.txt数据文件来看, Low complexity repeats 值得是某些区域内,1-3个碱基出现富集的情况,比如A_rich、AT_rich
Satellite repeats
卫星序列, 重复单元、重复数目都比微卫星要多。
RNA repeats (including RNA, tRNA, rRNA, snRNA, scRNA, srpRNA)
RNA 重复
Other repeats, which includes class RC (Rolling Circle)
环状DNA重复
Unknown
将rmsk文件根据重复序列分类需求转换为bed文件
grep LINE rmsk.txt | awk -F"\t" '{print $6,$7,$8,$10}' |sed 's/ /\t/g'>LINE.bed
---------------------------------------------------------------------------------------------------------------------------------------------------I`m a line ! Thanks !-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
参考链接:https://blog.csdn.net/tanzuozhev/article/details/80958785
References
Smit AFA, Hubley R, Green P. RepeatMasker Open-3.0. http://www.repeatmasker.org. 1996-2010.
Repbase Update is described in:
Jurka J. Repbase Update: a database and an electronic journal of repetitive elements. Trends Genet. 2000 Sep;16(9):418-420. PMID: 10973072
For a discussion of repeats in mammalian genomes, see:
Smit AF. Interspersed repeats and other mementos of transposable elements in mammalian genomes. Curr Opin Genet Dev. 1999 Dec;9(6):657-63. PMID: 10607616
Smit AF. The origin of interspersed repeats in the human genome. Curr Opin Genet Dev. 1996 Dec;6(6):743-8. PMID: 8994846
网友评论