DNA的分子结构
20世纪初,科学界已经认识到染色体是遗传物质。发现染色体由DNA Deoxyribonucleic Acid 和蛋白质构成。但是,倾向于认为蛋白质是遗传物质。
1944年,Avery、Macleod等使用肺炎球菌的实验证实了,毒性光滑型肺炎球菌的“转化因子”可以将部分无毒的粗糙型肺炎球菌转化为毒性光滑型,从而证实DNA是转化因子,是遗传物质。
这个实验非常重要,只要是与现代遗传学、生物科学有关的书中都会列举。实验的逻辑也被高度抽象为公式,在现代的分子生物学实验中反复出现。
1953年,Watson和Crick应用精细的X射线晶体衍射数据,推测出DNA的分子双螺旋结构。
-
DNA的基本成分是核苷酸 nucleotide,一个戊糖+一个碱基+三个磷酸构成。
-
其中,磷酸分子链接一个戊糖的3‘碳原子,链接另一个戊糖的5’碳原子,以3‘,5’-磷酸二酯键 phosphodiester bond 将单个核苷酸链接为多核苷酸链。因此,每条链的一个末端为5‘末端 end,另一个为3’末端。
-
两条多核苷酸链以反向平行的方式,互相缠绕构成DNA双螺旋大分子。一条链是5‘-3’,另一条是3‘-5’。
-
碱基则分为嘧啶和嘌呤两种。嘌呤包括:腺嘌呤 adenine,A;鸟嘌呤 guanine,G;嘧啶包括:胞嘧啶 cytosine C;胸腺嘧啶 thymine T。二者可以形成碱基对 base pair bp,彼此以氢键链接,维持两条多核苷酸链互补及稳定。G-C间3个氢键;A-T间2个氢键。
由于这种互补性 complementary ,DNA出现2种特点: - 知道GC的含量比例,就可以估计某DNA的碱基组分的比例。
- 知道一条链的具体碱基构成,就可以知道另一条链的。
-
遗传信息保存在DNA链中碱基的一级结构 primary structure中。以下是一些约定的书写格式:
- 一般按照DNA复制新链的方向5‘-3’来描述DNA的碱基序列
- 描述同一条链上的两个相邻的碱基时,我们使用一个p代表连接的磷酸二酯键,如CpG
- 描述不同链的碱基对时,我们直接写为CG
Watson因此获得诺贝尔奖,同时代,数个小组都试图解决DNA的结构问题,也有使用X射线的。但是,其人很幸运。他青史留名了,其他人则消声觅迹了。科学研究也是很残酷的。
DNA的分子结构有如下的意义:
- DNA链上,3个相邻的碱基构成了遗传密码的单位,4种碱基形成了4E3=64个遗传密码
- DNA的复制是一种半保留复制 semiconservative replication。这种复制方式使得DNA可以以互补链为模板修复主链
- 双链互补性也是近代分子生物学技术的基础
- 双螺旋形成了两个沟,其中大沟是DNA与蛋白质相互作用的结构基础。转录因子的基序 motif 与大沟的DNA相互发挥作用
发现64个遗传密码时,曾有人预言,生命的秘密将一览无余。实际上,基因组计划完成,科学家才发现,离解开生命的秘密还早。TF原来是在大沟内与DNA序列发挥作用。啧啧。。
人类所有的DNA构成了人类基因组 genome,包括核基因组 nuclear genome 和 线粒体基因组 mitochondrial genome。
- 核基因组是指每个体细胞核中的父源或母源整套DNA,即每个细胞中有两套。每个核基因组的DNA约有 3.2×10E9 bp。
- 线粒体基因组是指每个线粒体中的闭环双链DNA,即线粒体DNA mitochondrial DNA mt DNA
按照不同的定义,基因有不同的分类方法:
-
基因序列和非基因序列
- 基因序列是基因组中决定蛋白质的DNA序列,一端有起始密码子ATG,一端有终止密码子。二者之间的DNA序列称为开放阅读框 open reading frame,ORF。一个ORF就是一个基因。
- 非基因序列是指基因组中除基因以外的全部DNA序列,包括每个基因间的DNA序列 intergenic DNA
-
编码序列和非编码序列
- 编码序列是指编码蛋白质的DNA序列,也就是基因中的外显子序列
- 非编码序列是基因中的 内含子序列 和 基因间的序列
-
单一序列和重复序列
- 单一序列 unique sequence 是指基因组中只出现一次的DNA序列,即单拷贝DNA序列。多数基因为单拷贝序列,但也有多拷贝者。非基因序列也有单一序列。
- 重复序列 repetitive sequence 是指基因组中反复出现的DNA序列。在人类基因组中,60-70%是单拷贝-低拷贝的DNA序列,包括编码蛋白的基因。30-40%是中度或高度重复DNA序列,将基因分隔开。
- 1 串联重复序列 tandem repetitive sequence
指不同长度核苷酸序列的重复单位串联在一起的高度重复序列。2-200bp,根据大小可进一步分为:卫星DNA,小卫星DNA和微卫星DNA。
1)卫星DNA satellite DNA
由很大串联重复DNA构成,分布在100kb-数Mb的范围。重复单位可以简短,可以复杂。主要位于染色体着丝粒异染色质区,不转录,其GC含量低于总基因组DNA,密度梯度离心呈现为主带旁的小带。
例:α卫星是一个171bp重复单位串联构成,是着丝粒异染色质的主体,含有特异着丝粒蛋白的结合位点。
2)小卫星DNA mini satellite DNA
由重复单位在6-64个核苷酸的串联重复序列构成。这些序列分布于0.1-20kb的范围内。位于所有染色体的端粒,不转录。
例:
(1)高可变小卫星 hypervariable minisattlite DNA,核心共享序列是GGGCAGGANG(N为任一核苷酸)。是人类细胞同源重组的热点。
(2)染色体端粒DNA,3-20kb串联,六核苷酸重复单位,TTAGGG,由特异的端粒酶加上,担负端粒的功能。
3)微卫星DNA micro satellite DNA
由2-6个核苷酸为重复单位的串联重复序列组成,数量多,分散于基因组中,又称为短串联重复序列 short tandem repeat STR。常构成染色体着丝粒、端粒和Y染色体长臂的染色质区,大多由复制滑动产生(?)。
双核苷酸重复排列是最常见的类型,约占基因组的0.5% 。例:CA/TG 1/36kb;AT/TA 1/50kb;AG/CT 1/125kb;CG/GC 1/10Mb。因为CpG双核苷酸易于甲基化并随后去氨基。
微卫星DNA的意义不清楚,其多态性可作为遗传学研究的遗传标记。
某些微卫星DNA位于基因的编码序列,因为易于复制滑动而常为突变热点。例:(CGG)n等三核苷酸重复的动态突变是某些神经肌肉系统疾病的原因。
- 1 串联重复序列 tandem repetitive sequence
- 2 分散重复序列 interspersed repeated sequence
这是一种分布于基因组内散在的重复序列。
按照序列的长短,分为 短分散核元件 short interspersed nuclear element,SINE;长分散核元件 long interspersed nuclear element,LINE。
1)SINE
长度在100-400bp,拷贝数达10E6以上。在人基因组中,SINE间的平均距离 2.2kb,分散在基因内、基因间或基因簇内,甚至内含子中也含有SINE,但外显子中没有。
例:Alu序列是人类基因组中含量最高的重复序列。282bp构成,内含限制性内切酶Alu I的识别序列 AGCT(因此得名),约有50-70万拷贝。它存在于人和一些灵长类基因组中,因而可以作为其重要标记。
2)LINE
长度5000-7000bp,拷贝数达10E2-10E4.
例:Kpn I家族内含限制性内切酶Kpn I识别的序列,分散在基因组中。这些序列构成可转座元件 transposable elements,使DNA可以在基因组内由一个染色体转移到另一个染色体。
- 2 分散重复序列 interspersed repeated sequence
这个部分中,术语很多。其中 Alu 序列曾经在文献中读过。非基因序列与非编码序列相比,后者多个内含子。重复序列中的多种定义需要牢记,越来越多的实验发现,这些最初认为是垃圾的序列有很重要的作用。---你需要记住,如果你想成为一名遗传学家,或者遗传咨询师
网友评论