基因与基因组
基因
基因是DNA分子中含有特定遗传信息的一段核苷酸序列,是遗传物质的最小功能单位
基因的分类(按照是否具有转录以及翻译的功能)
1、编码蛋白质的基因:它具有转录和翻译功能,包括编码酶和结构蛋白的结构基因以及编码阻遏蛋白的调节基因。
2、只有转录功能而没有翻译功能的基因:包括tRNA基因和rRNA基因
3、不转录的基因:对基因表达起调节控制作用,包括启动基因和操纵基因。启动基因和操纵基因有时被统称为控制基因。有些区域的功能还不清楚。
基因组文库(genomic library)是将某种生物的全部基因(DNA)切成适当长度的片段,连接在载体上,转化到宿主细胞中而构建的克隆总体。
cDNA文库是以生物的总mRNA为模板,用逆转录酶合成互补的双链cDNA,然后连接到载体上,转化宿主细胞后构建的基因文库。
基因组(genome)
基因组是指含有一个生物体生存、发育、活动和繁殖所需要的全部遗传信息的整套核酸。
基因组中不同的区域具有不同的功能,有些是编码蛋白质的结构基因,有些是复制及转录的调控信号,有些区域的功能尚不清楚。功能基因组是指由表达基因构成的基因组;基因组结构是指不同功能区域在整个DNA分子中的分布情况
1、基因组大小
不同的生物体,其基因组的大小和复杂程度各不相同。进化程度越高的生物体一般其基因组越大也越复杂。却又不尽然,万物万物之灵的人类的单倍基因组DNA含量(haploid DNA content,C值)只有3×10 9 bp,而肺鱼的C值居然比人高10多倍。人和肺鱼亲缘关系相去甚远,很难相互比较。
在亲缘关系相近的物种间,C值仍然相差很大,两栖类的不同物种间C值可相差100倍,被子植物不同物种间C值相差达1000倍,藻类5000倍,鱼类350倍,节肢动物250倍。在原生动物不同物种间C值相差竟高达5800倍。表明C值的大小并不说明遗传复杂性的高低,而只说明基因组中自私DNA(selfish DNA)的多少。
2、基因组结构
基因的功能取决于DNA的一级结构,一个基因组的核酸可分为编码区和非编码区两类序列(编码区为mRNA、rRNA、tRNA以及其他各种RNA编码;非编码区又可分为信号序列和非信号序列两类)。信号序列包括:复制起点、增强子、启动子、终止子及一切由调节蛋白识别和结合的序列;非信号序列是指间隔区(间隔区并非不含有信息,信息不表现为核苷酸的顺序,而表现为序列的长度)。
真核基因的内含子并非编码序列,但其中含有重要信息,如5’剪接位点、3’剪接位点、3’剪接位点上游20~40nt及套索中间体分枝点附近的序列,都有严格要求;其余部分含有的信息较少,不易划出明确的界线。原核细胞由于DNA分子较小,必须充分利用有限的核苷酸序列,因此非编码序列比例很小,这也是真核基因组与原核基因组的最大区别。
DNA非编码区大都是一些大量的重复序列,这些重复序列或集中成簇,或分散在基因之间,可能在DNA复制、调控中具有重要意义,并与生物进化、种族特异性有关。
病毒基因组
病毒简介
病毒是最小的生命体,直径只有20~300nm。其基本构造为一层外壳蛋白(capsid)包围着核酸和数种酶;有些病毒在外壳蛋白外还有一层由宿主细胞构成的被膜(envelope),被膜内有病毒基因编码的糖蛋白。病毒必需进入宿主细胞中借助细胞内的一些酶类和细胞器才能使病毒得以复制。外壳蛋白(或被膜)有保护病毒基因组和识别、侵袭特定宿主细胞的功能。
1、病毒分类(7类)
病毒的遗传物质是单链或双链的DNA或RNA。
双链DNA、单链DNA、双链RNA、正单链RNA、负单链RNA、反转录RNA及反转录DNA病毒
2、病毒的结构
病毒的外壳结构主要有两种:螺旋形和二十面体(烟草花叶病毒(tobacco mosaic virus,TMV)是典型的螺旋形病毒,其他大部分病毒的外壳是二十面体)
3、病毒的生命周期(life cycle)
1)附着(attachment):病毒必需附着於宿主细胞的表面。病毒的表面蛋白质能与特定的受体结合。若宿主细胞膜具有这种特定的受体,病毒就能附着在上面。由于病毒的表面蛋白质随种类而异,不同种类的病毒会感染不同的宿主细胞。
2)渗入(penetration):附着于细胞似的病毒能够借助胞饮作用(endocytosis)、病毒包膜与宿主细胞膜融合(fusion)或其他机制渗入宿主细胞。
3)脱壳(uncoating):许多病毒进入宿主细胞后即受到宿主细胞的酶或经本身的酶作用脱去外壳。有些病毒(例如疱疹病毒)则沿细胞骨架运行至细胞核,在细胞核孔处去掉外壳。
4)复制(replication):在宿主细胞内,病毒能复制本身的核酸和合成构成病毒的各种蛋白质,然后再组合成完整的病毒。
5)释放(release):溶解性病毒(大多无包膜)在宿主细胞内大量复制,所产生的蛋白质会破坏宿主细胞膜,病毒就可出来感染其他细胞。具有包膜的病毒大多利用出芽(budding)方式脱离宿主。出芽过程中病毒可从宿主细胞膜获得所需的双脂层。
感染细菌的病毒特称为噬菌体(bacteriophage,phage),它的生命周期有两种:溶菌性(lytic)及溶原性(lysogenic)。溶菌性和其他溶解性病毒一样会破坏宿主细胞膜而脱离。
病毒基因组的结构特点
1、不同病毒基因组大小差异较大
2、病毒基因组是DNA或是RNA:每种病毒颗粒中只含有一种核酸,病毒基因组的DNA和RNA可以是单链或双链、环状或线性分子。大多数DNA病毒的基因组是双链DNA分子;大多数RNA病毒的基因组是单链RNA分子。
3、多数RNA病毒的基因组是由连续的核糖核酸链组成,但有些病毒的基因组RNA由不连续的几条核酸链组成。
4、基因重叠:病毒基因组有基因重叠现象,即同一段DNA片段能够编码2种甚至3种蛋白质分子。重叠基因的编码区往往与16SrRNA有短序列互补且互补区靠近起始密码子AUG处。基因重叠使较小的基因组能够携带较多的遗传信息。(线粒体和质粒DNA也有基因重叠现象)
重叠基因的类型:一个基因包含在另一个基因里、部分重叠、两个基因只有一个碱基重叠、两个基因共用一段相同的碱基顺序,但解读框不同。
5、病毒基因组的大部分是编码蛋白质的,只有非常小的部份不被翻译
6、病毒基因组DNA序列中功能相关的基因往往丛集存在,形成一个转录单元(可被一起转录成为含有多个mRNA的分子,称为多顺反子mRNA(poly cistronie mRNA),然后再加工成各种蛋白质的模板mRNA。)
7、除了反转录病毒外,病毒基因组都是单倍体,每个基因在病毒颗粒中只出现一次。反转录病毒基因组有两个拷贝。
8、噬菌体的基因是连续的,而真核病毒的基因具有内含子。除正链RNA病毒外,真核细胞病毒的基因都是先转录成mRNA前体,再经加工才能切除内含子成为成熟的mRNA。(有些真核病毒的内含子或其中的一部分,对某一个基因来说是内含子,而对另一个基因却是外显子)
HBV基因组的结构和功能
B型肝炎病毒(hepatitis B virus, HBV)属于DNA病毒。它的基因组DNA两股链一长一短。因此一部分(2/3)是双链结构,另一部分只有单链。HBV为了能在细胞内独立复制,病毒在很小的基因组中尽量容纳大量的遗传信息。因而HBV的基因组结构显得特别精密浓缩,充分利用其遗传物质。有基因重叠现象。HBV只有4个基因,其中X基因是造成肝癌的主要因素。编码的X蛋白质负责调控;S基因(surface)编码镶嵌于包膜上的蛋白质;C基因(capsid)编码构成核壳的蛋白质;P基因(polymerase)编码聚合酶。S基因完全重叠于P基因中,X基因与P基因以及C基因与P也有重叠。所有这些ORF都在“-”链DNA(长链)上。
1、HBV DNA的复制过程
HBV DNA进入宿主细胞, “+”链DNA延伸到全长,成为完整的双螺旋DNA,以负链为模板转录出“+”链RNA,这些RNA可作为mRNA,也可作为前基因组(pregenome)和DNA pol及引物蛋白一起组装成为未成熟的病毒核心。未成熟病毒核心以RNA反转录出全长的“-”链DNA,RNA被降解。再以“-”链为模板合成“+”链DNA,将“-”链DNA的缺口桥联起来,这时病毒外壳已成熟。
HIV基因组的结构与功能
HIV属于RNA病毒,含有双份的基因组RNA以及逆转录合成DNA的细胞tRNA引物。在它的复制过程中,需先将RNA反转录成DNA。所以这类的RNA病毒又称为反转录病毒(retrovirus)。
gag编码核心蛋白,pol编码逆转录酶和整合酶,env编码外壳蛋白
病毒的RNA在末端有同向重复序列(Direct repeat),紧挨5’端的是80~100nt的U5区。在3’端前是170~1350nt的U3区。DR片段在将RNA逆转录为DNA时被用来产生大量的同向重复序列,这些重复序列能在线形DNA找到
逆转录对于逆转录病毒的遗传具有重要作用
①由于逆转录酶无DNA聚合酶那样具有校正功能,所以它是一种高度的易错过程。逆转录病毒的基因组中可产生许多突变,并导致快速的遗传分化。
②逆转录可对促进遗传重组。由于在每个病毒粒子中包装的两条RNA都被用作逆转录模板,所以在这两条链间便可发生重组。由于突变可产生两条不同的RNA,重组后将产生一种在遗传学上不同于任一亲代的病毒。
原核生物基因组
原核染色体基因组结构特点
1、原核染色体基因组通常由一条环状双链DNA分子组成。整个染色体DNA几乎全部由功能基因与调控序列所组成,有密码子重叠和基因重叠现象。染色体相对聚集成一个类核(nucleoid)区域。
2、功能相关的基因构成操纵子,或高度集中。并常转录成为多顺反子的mRNA。几乎每个基因序列都与它所编码的蛋白质序列呈线性对应状态。
3、结构基因一般是单拷贝,但rRNA的基因往往是多拷贝(多拷贝的rRNA的基因可能有利于核糖体的快速组装,便于在急需蛋白质合成时在短时间内生成的大量核糖体)
真核生物基因组
真核生物基因组的特点
1、基因组远大于原核生物的基因组,具有多个复制起点,而每个复制子的长度较小。
2、真核生物基因组DNA与组蛋白等构成染色质,被包裹在核膜内,核外还存在遗传成分(如线粒体DNA等)。体细胞一般是二倍体(diploid),即有两份同源的基因组。
3、真核生物基本上不存在操纵子结构,一个结构基因转录生成一条mRNA,即mRNA是单顺反子,许多蛋白是由相同或不同的亚基构成,因此涉及多个基因的协调表达。
4、非编码区存在大量重复序列,重复序列或集中成簇,或散在分布于基因间
5、基因组中不编码的区域多于编码区域。并且,编码蛋白质的基因一般是不连续的,即有外显子和内含子,在转录后经剪接成成熟mRNA后,才能翻译成蛋白质。(人类基因组中可能仅有3%左右的序列是编码区(coding region),真核生物的基因分布比原核生物稀疏)
DNA序列的特性
1、高度重复序列(high repetitive sequences)
高度重复序列在基因组中重复频率可高达10 6 以上,因此复性速度很快。序列长度一般为10~300bp的较短序列。在基因组中所占比例随种属而异,约占10~60%,人基因组中约占20%。
1)高度重复序列的种类
重复顺序出现频率可高达10 6 ~10 8 。序列长短不一,占基因组的1~30%
①反向重复序列:反向重复序列由两个相同顺序的互补拷贝在同一DNA链上反向排列而成。这种重复顺序复性速度极快。
②串联重复序列:由2~172bp重复单位排列成串而形成的。由于碱基组成不同于其他部份,在等密度梯度离心时与主体DNA分开,称卫星DNA(卫星DNA只发现于真核生物,占基因组10%~60%。)。
串联重复序列包括
(a)卫星DNA(satellite DNA):重复区涵盖100kb~5Mb,大部分位于染色体着丝点。
(b)小卫星(minisatellite)DNA:主要包括重复单位在9~80bp之间的可变数目串联重复序列(variable number oftandem repeats,VNTR)和端粒。VNTR大多位于非编码区,重复的数目随个体差异很大。可用于DNA指纹(DNA finger printing)。人类端粒的重复序列是TTAGGG,涵盖10~15kb,老化后可能变短。
(c)微卫星(microsatellite)DNA:重复单元1~6bp的短串联接重复(short tandem repeats,STR),微卫星DNA里的重复数目亦随个体而异,广泛被用於DNA指纹。在人细胞组中卫星DNA约占5-6%。
③散布重复序列:散布重复序列可看成是一种转座子(transposable elements),它们借DNA重组机制而转移。经过许多代的遗传累积,DNA的某段序列会散布各处。由于突变的结果,每个重复单位的序列并非完全相同。
2)高度重复顺序的功能
①参与复制水平的调节:反向序列常存在于DNA复制起点区的附近。许多反向重复序列也是一些蛋白的结合位点。
②参与基因表达的调控:DNA的重复顺序可以转录到hnRNA分子中,有些反向重复顺序可以形成发夹结构,对稳定RNA分子免遭分解有作用。
③参与转座作用:转座子的末端一般都包括反向重复顺序。由于这种顺序可以形成回文结构,因此在转位作用中即能连接非同源的基因,又可被参与转位的特异酶所识别。
④与进化有关:高度重复顺序的核苷酸序列具有种属特异性,但相近种属又有相似性。
⑤同一种属中不同个体的高度重复顺序的重复次数不一样,这可以作为每一个体的特征,即DNA指纹
⑥卫星DNA成簇的分布在染色体着丝点附近,可能与减数分裂时染色体配对有关,即同源染色体之间的联会可能依赖于具有染色体专一性的特定卫星DNA顺序。
2、中度重复序列
中度重复序列(moderate repetitive sequences)指在基因组中重复频率10~10 5 的顺序,序列长100~5000bp;在基因组中所占比例约占10~40%。分布于结构基因之间、基因簇中、以及内含子中。中度重复顺序一般具有种特异性;在适当的情况下,可以应用它们作为探针区分不同种哺乳动物细胞的DNA。中度重复序列一般不编码蛋白质。功能可能类似于高度重复顺序。有些中度重复顺序是编码蛋白质或rRNA的结构基因。
3、单拷贝序列
单拷贝序列(single copy sequences)在单倍体基因组中只出现一次或数次,又称低度重复顺序。占哺乳类基因组的50~80%,人基因组中约占65%。序列长750~2000bp,相当于一个结构基因的长度。单拷贝顺序中只有一小部分编码蛋白质。在基因组中,单拷贝顺序一般与重复序列相间排列。单拷贝基因通过基因扩增仍可合成大量的蛋白质。
真核生物的结构基因两侧有非编码区,在基因内部有间隔序列(intervening sequences),称为内含子(intron),编码区称为外显子(exon)。内含子与外显子相间排列,转录时一起被转录下来。因此整个生物的基因是断裂基因,转录成RNA后经过剪接切除内含子成熟为mRNA。
多基因家族与假基因
1、多基因家族(multi gene family)
多基因家族是一群具相似序列的基因,编码在结构和功能上相关联的一个蛋白质家族(包括在结构和功能上相关的rRNA和tRNA)的若干个基因
1)简单多基因家族:各成员相同或基本相同
2)复杂的多基因家族:各成员不完全相同,但功能相关,串联在一起成为一个重复单位
3)由发育阶段控制的多基因家族:同一个多基因家族的成员可成簇地分布在一条染色体上,也可以分布在不同的染色体上
2、假基因(paeudo gene)
假基因是在同一多基因家族中并不产生有功能的基因产物的基因
1)非处理过假基因(nonprocessed pseudo genes):由成簇的重复基因突变而来,也称传统性假基因(conventional pseudo genes)。重复基因有多个副本,若其中几个发生突变个体仍能生存而将此变异传至后代。
2)处理过假基因(processed pseudo genes):处理过假基因大多来自于DNA重组。假基因可能是mRNA经反转录产生cDNA,再整合到DNA中形成的,因此该假基因没有内含子,两侧有顺向重复序列。在这个过程中,可能同时会发生缺失,倒位或点突变等变化,而使假基因不能表达
超基因(Super gene):在一个基因簇内含有几百个功能相关的基因(超基因可能是由于基因扩增后又经过功能和结构上的轻微改变而产生的,但仍保留了原始基因的结构及功能的完整性)
自私DNA(selfish DNA)
在哺乳动物基因组中有大量的非编码序列,如高度重复序列,内含子,间隔DNA等。其中只有很小一部分具有调节功能,绝大部分都没有功能。在这些非编码顺序中虽积累了大量缺失、重复或其它突变,但对生物并无影响,它们的功能似乎只是自身复制,称这类DNA为自私DNA或寄生DNA(parasite DNA)。
限制性片段长度多态性
若DNA序列中的某个碱基突变产生了某种限制性内切酶的位点。利用此限制性内切酶消化时会产生与正常不同的限制性片段。这样,在同种生物的不同个体中会出现不同长度的限制性片段类型,即限制性片段多态性(Restriction Fragment Length Polymorphism,RFLP)。RFLP分为两类型:①点多态性 ②由于DNA分子内部发生较大的顺序变化所产生的多态性
在同种生物的不同个体间,尽管其蛋白质产物的结构和功能完全相同或仅存在细微的差异,但在DNA水平却存在差异,尤其在不编码蛋白质的区域以及没有重要调节功能的区域差异更大。由于DNA顺序上的大多数突变是不影响生物体表型的中性突变,因而无法用传统的遗传学方法来研究。
1、点多态性
点多态性(point polymorphism)是由于限制性内切酶位点上发生了单个碱基突变而使这一限制性位点发生丢失或获得而产生的多态性。
2、高变区DNA与DNA指纹
DNA分子内部发生较大的顺序变化产生的多态性又可分成两类:①由于DNA顺序上发生突变如缺失、重复、插入所致。②是近年发现的所谓“高变区”
高变区(highly variable region)是由多个串联重复顺序组成的,不同个体高变区内串联重复的拷贝数不同而造成高变区长度不同,而使高变区两侧限制酶识别位点的固定位置随高变区的大小而发生相对位移。其突出特征是限制性内切酶识别位点本身的碱基没有发生改变,改变的只是它在基因组中的相对位置。
DNA指纹:人的卫星DNA是由短的DNA片段(10bp左右)多次重复构成的。重复片段的组成和拷贝数在不同个体及基因组的不同位置上不同。提取不同个体的基因组DNA,用其切点能识别序列为4个碱基而又不切割该重复片段的限制性内切酶在重复片段的两侧切割基因组DNA,电泳分离。再与含有这些重复序列的特异性探针杂交,显示有个体特异性的图谱,即DNA指纹。DNA指纹技术用于亲子鉴定和法医上对罪犯的确认等领域。
线粒体基因组
线粒体是真核细胞内能量生成的场所,也是脂肪酸和某些蛋白质合成的场所。线粒体有自己的一套遗传控制系统,同时也受到细胞染色体DNA的控制。
1、线粒体DNA的性质
动物和酵母线粒体DNA(mtDNA)一般为双链环状分子,植物多为线形。(原生动物中的草履虫和四膜虫的mtDNA是线性分子)。mtDNA复制属于半保留复制,可以是D环复制、θ型复制或滚环复制。
2、线粒体基因组
呼吸链中的某些蛋白质或酶是mtDNA编码的。线粒体有自己的rRNA,tRNA,核糖体等可以表达自己的基因合成一些蛋白质。(在前体RNA分子中rRNA和mRNA被tRNA隔开。这些tRNA序列可作为核酸酶切割RNA前体的识别信息,RNA前体经过割,可使tRNA、rRNA和mRNA自然分开,经进一步加工成为成熟的rRNA、tRNA和mRNA分子,mRNA的polyA尾是在其前体与tRNA分开后加上的。)
线粒体的基因组至少包括:tRNA基因、rRNA基因、细胞色素氧化酶基因、ATP酶基因、细胞色素还原酶(b,c复合物)基因以及一些抗药性基因。
3、线粒体的密码系统
mRNA上的密码子和tRNA上的反密码子相对应。20种氨基酸有61种密码子,按摆动学说最少需要32种tRNA才能完全识别mRNA中的61个密码子。但线粒体中tRNA的种类少于32种(人的mtRNA只有22种)。表明线粒体的密码系统与通用的密码系统不同。
1)哺乳动物线粒体DNA(mtDNA)的遗传密码的特点
UGA不是终止信号,而是Trp的密码。因此,线粒体tRNA trp 可识别UGG和UGA两个起始密码子。在线粒体密码系统中的4个终止密码子(UAA,UAG,AGA,AGG)
2)线粒体tRNA的反密码子的特点
一个tRNA可以识别4种密码子,mttRNA结构与细胞质tRNA有区别,mttRNA三维结构以及与mt核糖体的作用方式与细胞质tRNA不同。
3)线粒体DNA的双重遗传控制
mtDNA的复制和转录都是自己的聚合酶来完成的。mtRNA聚合酶只是一条简单的多肽链,此酶对原核细胞转录酶抑制剂利福平敏感。线粒体的蛋白质合成也受细菌蛋白质合成抑制剂如氯霉素,链霉素的抑制。说明线粒体的许多组份不受细胞核的控制。
线粒形成的内共生学说(endosymbio-nttheory):在进化过程中原始的厌气细菌吞噬了原核生物(如细菌,蓝绿澡等)形成共生关系。寄生为共生者提供营养和保护,共生者为寄主提供能量生成系统。最终,共生者演化成细胞的组成成份──线粒体。
网友评论