美文网首页生信基础
ENCODE计划 (The Encyclopedia of DN

ENCODE计划 (The Encyclopedia of DN

作者: 黄晶_id | 来源:发表于2019-02-20 19:13 被阅读137次

       人类基因组计划完成之后,人们惊奇的发现,能够编码蛋白质的基因只占全部基因组序列的不到2%,其余超过98%的基因组序列被称为“垃圾序列”或者基因组里的“暗物质”。为了解析这些所谓“垃圾DNA”的结构和功能,开展了ENCODE计划的研究。然而,这些序列的结构和功能正逐步被ENCODE计划解析。

       ENCODE计划分期展开,目前已经进行到第四期的研究。经过10多年的努力,研究了147个组织类型,进行了1478次实验,获得并分析了超过15万亿字节的原始数据,确定了400万个基因开关,明确了哪些DNA片段能打开或关闭特定的基因,以及不同类型细胞之间的“开关”存在的差异。证明了所谓 “垃圾DNA” 都是十分有用的基因成分,担任着基因调控重任。证明人体内没有一个DNA片段是无用的。科学家发现在人类基因组中的许多DNA片段可以通过各种方式发挥他们各自的功能。DNA序列除了可以编码蛋白质之外还可以结合蛋白质影响基因的活性;转录出RNA行使各种功能;又或者作为各种化学修饰物的底物起到基因沉默的作用等。目前所有数据均全部公开(http://genome.ucsc.edu/ENCODE/),并以30篇论文在Nature、Science、Cell、JBC、GenomeBiol、GenomeResearch同时发表 (http://www.nature.com/encode)。成为一个互动的百科全书,并可以免费公开获得和利用这些全部的资料和数据。这是迄今最详细的人类基因组分析数据,是对人类生命科学的又一重大贡献。

       ENCODE项目组不仅生成高质量的数据,还整合分析注释这些数据,并提供搜索和可视化这些注释结果的工具。ENCODE项目组对数据的注释分析分为两种级别,一种为直接分析实验产生的数据的基本分析,主要是单一种类数据的流程性处理;一种为整合多种实验数据的整合性分析注释。而整合性分析注释的核心工作是候选顺式调控元件(candidate cis-regulatory elements,ccREs)的注释(the Registry of candidate cis-regulatory elements),该工作是由麻省大学医学院翁志萍教授带领的团队完成的。翁教授自2011年起担任ENCODE计划数据分析工作组联合主席。2018年6月28日,翁教授受邀到中国科学院北京基因组研究所主讲GPB杰出学者论坛,向大家汇总介绍了ENCODE计划第三期数据分析工作的成果。

袁国丞(Guocheng Yuan)教授和翁志萍(Zhiping Weng)教授

## 翁志萍早年毕业于中国科技大学,1997年获得美国波士顿大学医学工程博士学位,翁志萍博士在2003年,她毕业六年以后,获聘麻省大学医学院终身副教授,她由博士毕业到成为终身副教授所花费的时间要远远少于平均值。当时,她也以32岁的年龄成为波士顿大学历史上最年轻的具有终身职称的教授之一。##

        翁教授及其团队,主要利用 DNase-seq和组蛋白甲基化(H3K4me3)、组蛋白乙酰化(H3K27ac)、CTCF ChIP-seq 四类数据来鉴定ccREs。DNase-seq数据用于表示染色体是否处于开放状态,处于开放状态的区域被称作DNase酶高敏位点(DHSs)。以该数据为基础,在所有细胞系中根据DHS信号强度,挑选出代表性DHSs(representative DHSs, rDHSs)。如果rDHSs上同时存在H3K4me3、H3K27ac、CTCF 三者当中至少一种信号的话,则被称之为ccRE通过建立注册资源库(registry of ccREs)的方式,研究归纳ccREs,赋予每一个ccRE 唯一的编号,方便不同实验室之间研究结果的比较。根据H3K4me3、H3K27ac、CTCF所代表的功能,将ccREs分为启动子、增强子、绝缘子三大类。使用这种方法,他们将ccREs分为所有细胞类型中共有的具有启动子功能,增强子功能,和CTCF结合的绝缘子功能的候选调控元件。对于每种特定的细胞类型,鉴定出细胞特异性的三类调控元件。目前在人类基因组序列当中共鉴定出131万个ccREs(约占整个基因组的20%),在小鼠中鉴定出43万个ccREs,有21种人类(11种小鼠)细胞类型具有完整的细胞特异性ccRE分类,并且597种人类(127种小鼠)细胞类型具有部分的细胞特异性ccRE分类。

       为了让更多的生物学家可以利用这些ccREs的研究成果,翁教授团队开发建立了操作友好的可视化数据库SCREEN(http://screen.encoproject.org) #这个网站我打不开,不知道墙外可不可以打开 #  科学家可以利用SCREEN搜索ccRE,并展示它们的原始数据以及许多类相关联的注释信息的,还可以利用SCREEN解释全基因组关联研究(GWAS)发现的与疾病相关的变异的功能。综合分析GWAS数据和ccREs,发现与精神类疾病相关的SNPs一般位于脑组织里活化的ccREs上。这不仅为SNP与疾病之间存在相关性的原因提供了解释,也为其他基因组突变或多样性研究提供了思路。翁教授团队得到的部分ccREs的功能正在通过生物学实验验证,期待经过后续实验验证的功能性ccREs为我们提供更明确的疾病机制与疾病靶点。

ENCODE Data Analysis Center

      ENCODE还开辟了一种数据挖掘的新程序,称为“主题线程”(ThemedTherads)。它将ENCODE的所有数据和Nature等杂志发表的几十篇论文,汇总在一起,可以依据主题,通过虚拟计算机进行数据的调阅、拼接、分析、整合和预测。这也为今后生命科学和复杂疾病的研究增添了一个新的、有力的工具。

相关文章

网友评论

    本文标题:ENCODE计划 (The Encyclopedia of DN

    本文链接:https://www.haomeiwen.com/subject/udqkyqtx.html