转自iProteome,作者:项杭,> 原文链接iProteome
翻译自2018年 CELL文章The Human Transcription Factors
英文原文 The Human Transcription Factors
转录因子(Transcription Factors, TFs)是指能够以序列特异性方式结合DNA并且调节转录的蛋白质。转录因子通过识别特定的DNA序列来控制染色质和转录,以形成指导基因组表达的复杂系统。尽管众多科学家对理解转录因子如何控制基因表达有着浓厚的兴趣,精准定位转录因子在基因组上的特异性结合位点,以及转录因子结合后最终如何参与转录调节仍然具有挑战性。
本综述主要涵盖了1600多种可能的人类转录因子和与其中三分之二转录因子结合的motif,来鉴定转录因子并对其功能进行注释。本文根据目前对转录因子及其功能的理解,为思考转录因子如何单独又如何作为整体工作提供了思路。
01 什么是转录因子
转录因子是对基因组的直接阐释,是执行DNA解码序列的第一步。许多转录因子充当着主调节因子和选择基因的角色,控制着细胞类型的决定、发育模式和特定途径控制(如免疫反应)的过程。在实验中,转录因子可以促进细胞分化、去分化和转分化。转录因子和转录因子结合位点突变是人类致病的主要因素。在后生动物中,他们蛋白质序列调控区的生理作用通常非常保守,这表明基因组调控"网络"可能同样是保守的。但是,个别监管序列的转换率很高,当时间尺度更长时,转录因子可能会发生多拷贝和突变。相同的转录因子可以调节不同细胞类型中的不同基因(例如,乳腺和子宫内膜细胞系中的ESR1),这表明即使在同一生物体内转录因子的调节也是动态的。确定转录因子如何以不同方式组装以识别绑定位点和调控"网络"转录是一项庞大而令人望而生畏的工作,但是,对于理解它们的生理作用、解码基因组的特定功能,以及在复杂生物中绘制高度特异性表达程序的编排是至关重要的。
相对于其他序列,转录因子对特异性结合序列具有1,000倍甚至更高的偏好,因为转录因子可以通过阻断其他蛋白质的DNA结合位点进而发挥作用(例如,经典的lambda,lac和trp 阻遏物),单独结合特定DNA序列的能力通常被视为调节转录能力的指标。如果没有转录因子结合的DNA序列的详细信息,就不能在功能上理解这些蛋白质。转录因子与特异性DNA结合通常概括为“基序”(motif) ,是指给定TF优先的相关短序列组的模型,其可用于扫描较长序列(例如,启动子)以鉴定潜在的结合位点。确定DNA结合的motif通常是详细阐释转录因子功能的第一步,鉴定潜在的结合位点为进一步分析提供了途径。在过去的十年中,我们开发motif和基因组结合位点的能力得到了显着提高,从而产生了关于TF-DNA相互作用的前所未有的大量数据。为了开发目前的TF目录,本文主要参考了TRANSFAC,JASPAR,HT-SELEX,UniPROBE和CisBP,以及先前的人类转录因子目录。
02 如何识别转录因子
最早在20世纪80年代,就描述了真核生物中的主要TF家族,如C2H2-锌指(ZF),同源域,碱性螺旋 - 环 - 螺旋(bHLH),碱性亮氨酸拉链(bZIP)和核激素受体(NHR)。通常通过诸如DNA酶足迹法或迁移率变换的方法鉴定结合位点,再使用N-末端肽测序,噬菌体文库或单杂交筛选鉴定特定结合蛋白。继续通过实验方法鉴定(例如,单杂交测定,DNA亲和纯化-质谱,和蛋白质微阵列可以筛选新的DNA结合蛋白),但是今天,大多数已知和推定的TF已经通过先前表征的DNA结合结构域(DBD)的序列同源性来鉴定,这也用于对TF进行分类。目前在蛋白质数据库(PDB)中可获得大约100种已知的真核生物DBD类型。迄今为止,除了少数充分表征的哺乳动物转录因子之外的所有转录因子都含有已知的DBD。在仅基于与DBD的同源性匹配来推断功能时必须小心,因为并非所有结构域都一定会结合特定DNA序列。
03 如何确定TF-DNA结合的motif
首先根据结合位点中每个碱基的转录因子的相对偏好产生一张基础表或“位置权重矩阵”(PWM)。在每个碱基位置,四个碱基中的每一个都具有得分,并且将序列的每个碱基的这些得分相乘来预测得到转录因子对该序列的相对亲和力。在许多情况下,这反映了对一个或少数相关序列的强烈偏好。此外,PWM还存在一些缺点:基线位置之间可能存在依赖关系由于DNA形状或可变形性; 转录因子可以具有多种结合模式(例如,蛋白质的不同物理构型导致分离的,不同的基序)等。为了解释这些复杂性,科学家们开发了更复杂的模型,例如结合了对二核苷酸和高级k-mers的偏好,使得转录因子及其家族的准确性有所提高。然而,在许多情况下,改进的效果很小甚至检测不到。PWM仍然是分析转录因子结合最常用的模型,并术语“motif”来表示PWM。
接下来通常通过实验确定的结合位点和与motif匹配的序列之间仅存在部分重叠,甚至实验确定的结合位点是相对较差的预测因子。同时,motif匹配通常是ChIP-seq(染色质免疫沉淀测序)数据集中最富集的序列之一,表明内在DNA结合的特异性对于体内转录因子的结合是重要的。出现这样的现象不是空穴来风,大多数转录因子结合位点很小(通常是6-12个碱基),并且是灵活的,因此典型的人类基因(> 20 kb)将包含大多数转录因子的多个潜在结合位点。因此我们需要通过其它途径来解决问题,例如转录因子之间的协同性和协同作用,为这种特异性缺陷提供了一个现成的解决方案。大多数人类的转录因子必须共同努力才能完成任何事情,但是他们之间的相互作用和关系的细节大多数是未知的。结合DNA后转录因子的生物化学作用也在很大程度上未被反映出来。因此,解码基因调控如何与TF结合基序和基因序列相关仍然是一个主要的现实层面的挑战。
04 转录因子的协同性和与核小体的相互作用
理论论证和实践观察表明,后生动物的转录因子一般必须共同作用才能与DNA结合,在效应功能中达到所需的特异性。转录因子有多种合作方式,例如帮助相互结合DNA(协同结合)或通过不同机制影响染色质状态或转录(协同调节)。TF还可以作为同二聚体(例如,bZIP和bHLH),三聚体(例如,热休克因子)或更高级结构协同结合。
协同结合可以通过几种方式发生。当它由蛋白质-蛋白质相互作用介导时最容易理解,当两个(或更多个)相互作用蛋白质以相容的间隔和方向结合DNA时,便赋予其额外的稳定性。高通量体外研究表明,协同结合常常影响复合物中转录因子的序列偏好,并且还可能对两个结合位点之间的间隔序列产生限制。单分子成像的结果研究证实,当多个转录因子结合在一起时会占据更长时间。
最近的研究表明DNA介导的协同结合也在转录因子功能中起重要作用。分子建模和结构分析表明,在某些情况下,协同性是由于DNA促进了蛋白质之间的接触。在其他情况下,蛋白质结合在DNA的对立面或彼此相对较远的一边,表明DNA直接介导了协同性。也就是说,一个转录因子的结合以促进另一个转录因子结合的方式影响DNA的形状。
为了与核小体DNA结合,TF必须与核小体竞争或以某种方式与核小体或核小体DNA相互作用以进入其位点。TF也可内在地与核小体竞争结合TF,此外,一些TF可以启动核小体的置换或至少改变它们的构象。这些TF的活性也可能取决于它们结合核小体DNA的能力,这可能受核小体上结合位点的旋转定位的影响(例如,Yamanaka因子 POU5F1,SOX2,KLF4和MYC)。另一个有趣的现象是,不同的染色质重塑器具有特定DNA序列和/或核小体构象的偏好,表明核小体和核小体的定位机制赋予了TF功能上额外的DNA序列特异性。
05 转录因子效应器的功能
转录因子在与DNA结合时影响转录的方式变化很大。一些转录因子(例如,TBP)可以直接RNA招募聚合酶,还有一些可以招募促进特定转录阶段的辅助因子。大多数真核生物的转录因子被认为通过招募辅助因子起作用。这种“共激活因子”和“辅阻遏物”最初被鉴定为转录因子效应子活性的介质,通常是大的多亚基蛋白质复合物,或通过几种机制调节转录的多结构域蛋白质。它们通常涉及染色质结合,核小体重塑和组蛋白或其他蛋白质结构域的共价修饰。IFNβ增强体是共激活因子招募的一个经典例子,其中多个转录因子的结合导致GCN5 / KAT2A和 CBP / p300 组蛋白乙酰转移酶的募集。由此产生的局部染色质环境变化会引起核小体重塑,如 SWI / SNF复合物为RNA聚合酶创造空间以结合并启动转录。一些共激活因子和辅阻遏物似乎更广泛。p300经常被用作增强子的标记物,与数十种TF相关联。连接TF和RNA聚合酶II的Mediator复合物类似地与数千个基因座相关联。
特异性的效应结构域通常可以介导TF特异性辅助因子的招募。同样,核激素受体的配体结合结构域以配体和背景依赖的方式促进与共激活因子、辅阻遏物和其他TF的相互作用。经大量研究后,发现蛋白质中存在的经典转录激活因子序列(例如,TP53, E2F和SP1中发现的酸性序列),它们通常是非结构化的低复杂性序列,具有称为短线性基序的小功能区域。
TF传统上被归类为“激活物”和 “阻遏物”; 然而许多TF根据所在序列的位置和辅助因子的作用可以招募具有相反作用的多种辅助因子,例如,MAX作为与MNT或MXD1 作为异二聚体与DNA结合时起抑制剂作用,当作为异二聚体与MYC结合时起激活作用。目前还没有全面的辅助因子目录。此外,基因激活或增强子和启动子之间的通信所需的生化功能在很大程度上仍然是未知的。人体中多达443种不同的染色质修饰蛋白已经做好了归类,并且已经了解了辅助因子和染色质蛋白之间的许多相互作用。但是,相同的研究检测到很少的TF,这表明TF-辅助因子的相互作用是弱的/瞬时。
06 人类TF的合集
目前并没有一个通用的解决方案可以自动生成我们所需要的列表,因此当下结构域无法精确地推测出转录因子,文库又是高度不统一的,电子信息的注解有没有一个统一的标准。最新的人类转录因子库发表于2009年,总共涵盖了535个人的转录因子,并描述了所推测的DBD。近年来,该文库迅速扩展。本综述对人类转录因子集进行了一定程度的修订。
本综述手工查询了2,765种蛋白质,为每种蛋白质创建了一个网页,其中包含所有相关信息和外部数据库的链接。本综述考虑了全局序列比对和DNA已知的结合的残基,以便在仅有亚基结合DNA的家族(例如,ARID,HMG和Myb / SANT)中对表征不佳的蛋白质做一个评估。考虑到可行性的因素,我们没有搜索或记录蛋白质修饰或结合配偶体等复杂性。 “HumanTFs”网站(http://humantfs.ccbr.utoronto.ca/)显示结果,每个TF都有一个单独的页面,以及每种DBD类型的所有已知motif和信息以及序列比对。此网站还有一个用户可以选择提交其他信息的选项。
imageTable1. 判断和识别TF特异性结合的实验方法
最终记录的1,639个已知或潜在的人类转录因子,其中大多数至少包含了两种DBD类型中的一种(C2H2-ZFs和Homeodomains)。剩下近一半(46%)是另外六个bHLH 、bZIP 、Forkhead 、核激素受体、HMG / Sox 和ETS(图1B)。在考虑了缺乏DNA序列特异性的已知亚类后,含有Myb / SANT和HMG结构域的TF比先前估计的少得多。1,639个TF中的绝大多数(93%)或作为单体与DNA结合或作为同源多聚体与DNA结合。且许多都包含相同DBD类型的多拷贝(图1C),但其中大多数是C2H2-ZF,它们与DNA按列结合(图 1A)。每种蛋白质的C2H2-ZF数量变化很大,一定程度上取决于效应结构域(图1B )。含有KRAB的亚型中的大量C2H2-ZF可能是由于靶向单个转座子所需的特异性。只有一小部分TF(47或〜3%)含有多种类型的DBD,而POU是最常见的同源域是最常见的(图1C )。大多数人类TF也含有其他蛋白质结构域(图1D):其中有391种不同类型的非DNA结合结构域,与TF效应子功能的多样化和广泛网络的概念一致。
当前的TF列表可能仍然不完整,完整的DBD系列可能仍然未被完全发掘。实际上,由于缺乏规范的DBD,此列表中的69个TF被归类为“unknown family”。大多数这些蛋白质缺乏motif(见下文),晶体结构基本上是无法获得的,并且与DNA结合的证据仅包括在单个文库中鉴定的少数序列。因此,在获得更多实验数据结果前,应谨慎对待此类别的TF。
此外,一些已知的DBD系列可能比目前所理解的更大。例如,根据Interpro和SMART数据库,预测的简单的AT钩结构域(由13个氨基酸[aa]共有序列表示)分别存在于3和21号人类基因中。然而,一个更宽泛的定义,只需要在22个碱基窗口上存在侧翼为多个碱性残基的GRP 三肽(Aravind和Landsman,1998),它存在于数百种人类蛋白质中,每种蛋白质都可以代表真正的TF。C2H2-ZF家族也值得评估,因为出现了更好的模型来识别这些短的(〜23 aa)结构域,并将参与DNA结合的那些区域与促进与RNA或其他蛋白质相互作用的区域区分开来(Brayer和Segal,2008)。
imageFigure1. 人类转录因子合集
07 人类转录因子的序列特异性
目前大约四分之三(1,211)的人类转录因子具有与其结合的motif。已知motif中的913个是通过体外高通量法(例如HT-SELEX或PBM)测定出来的。图1B说明大多数类别的TF具有高或完全的motif覆盖,而少数具有主要差异。例如,几乎所有的同源结构域(188/196)都有一个已知或推断的motif,可能是由于它们相对容易在体外研究,它们的深层次的特点能够通过同源性推断。相比之下,C2H2-ZF类转录因子目前缺少数百个motif(267/747)(图1B),可能是因为它们难以在体外研究(许多是大蛋白),而且保守的相对较少。
许多TF识别相似的motif,通常对应到TF家族或亚家族,这个现象与许多先前的研究一致(图 2A)。值得注意的是,C2H2-ZF蛋白为motif中最为多样性的(图2B),这与先前所研究得结构和DNA接触残基的多样性一致。图2C显示的是NHR家族的motif,说明转录因子多样性涉及单体DNA序列偏好和蛋白质复合物形成的变化。图 2C中的许多motif被二聚体识别。在人体中总共有超过500个特异性的motif,表明广泛的DNA序列可以作为转录因子结合位点。
imageFigure2. 特异性结合人类转录因子的DNA
08 人类转录因子的保护和进化
转录因子的演变通常比它们的调控位点的演变慢得多。人和果蝇之间的转录因子直系同源物通常显示出几乎相同的序列特异性。尽管如此,转录因子确实在不断进化,它们的motif、结合物和表达模式都在不停地改变着。人类转录因子中不变与改变中的一个突出例子便是大多数哺乳动物基因组编码了数百种含有KRAB的C2H2-ZF蛋白,其中许多都显示出了多样化选择的标志,在人和小鼠之间也具有复杂的直系同源模式。在人类中,KRAB C2H2-ZF蛋白通常都与转座子(TEs)(主要是LINE和内源性逆转录病毒)结合,在初期可能是通过抑制KRAB结构域的功能使它们沉默。转座子和转录因子之间的“军事竞赛”为其迅速而又多样化的变化做出了很好的解释。
基于它们在真核基因组中的分布(图3A ),当前的1,639个转录因子根据亲缘关系得知其涵盖了包括脊椎动物,四足动物,胎盘哺乳动物或灵长类动物在内的后生动物主要群体。有趣的是,几乎所有脊椎动物都具有同源域蛋白的可识别对应物,而几乎所有哺乳动物特异性蛋白都含有C2H2-ZF结构域。实际上,Ensembl定义的人类TF-TF旁系同源物之间的分化都有两种趋向:两侧对称动物中多种TFs家族出现了第一波重复,由KRAB C2H2-ZF主导的第二波重复则出现在Amniota(图3B,左)。早期时整个多样性的TF家族的复制与脊椎动物中整个基因组发生两轮复制的假说一致。该事件与细胞类型的多元化发展是大致符合的,并且复制的TF可能有助于调控新细胞类型。KRAB的辐射性增加可能在一定程度上解释了为什么胎盘能够很大可能的传递逆转录病毒。值得注意的是,在过去的3亿年里,KRAB的辐射区域中TF-TF的复制主导了其在所有人类同源物的分布(图3B,右)。
imageFigure3. 人类转录因子的直系同源基因和旁系同源基因
09 人类转录因子在组织和细胞类型中的表达
基因(包括转录因子)的组织和细胞类型包括TFs的特异性表达通常对应着相应的特定功能。我们使用来自人类组织图谱中的RNA-seq数据检查了在37个成人组织中的1,554个转录因子的表达模式(图4A),采用其组织特异性表达的定量定义。这种基因表达模式的全局视图捕获了许多特征明确的TF的已知作用。例如,SOX2,OLIG1 和POU3F2(OCT7)几乎只在大脑皮层中表达,而GATA4和TBX20仅在心肌中高度表达。该数据集中大约三分之一(543)的人类TF表现出组织特异性表达的特点,其中包括许多具有不良特征的生理作用。
在其他的TF家族中,一半(49%)是具有组织特异性的,并提供了关于其特定生理功能的线索。更高分辨率的数据,例如来自单细胞RNA-seq,可以解析同一组织的不同类型细胞对转录因子间的联系,使得对于细胞鉴定和受转录因子调控的基因有更深刻的理解。
10 遗传学和疾病中的人类转录因子
转录因子占所有人类基因的约8%,并且与多种疾病和表型相关。转录因子突变通常是高度有害的,这也解释了为什么基因组TF编码位点富含超保守的位点。转录因子遗传分析可能因基因调控网络固有的功能冗余而变得复杂,因为表型可能难以仅在特定条件下检测得到或表现出来,或者因为在群体水平上具有高度有害作用的变体不存在。尽管如此,关于临床表型中人类TF的全球视角确实揭示了一个共同的主题。图 4B展示出了编码TF的基因内或附近的大量突变相关的人类疾病表型。对于与先天性生长激素缺乏有关的垂体前叶发育不全观察到了观察到大量基因的富集。已知的15种基因参与该表型,其中有12种是编码TF(p <10 -11 ),包括多个同源域和Sox家族的转录因子。总的来说,人313个(19.1%)的转录因子至少与一种表型相关,显着高于所观察到的部分(16.2%)。相比之下,基于最近的CRISPR筛选的数据(3%对10%),转录因子从人类癌细胞系中的核心必需基因组中排除,可能是因为人类的转录因子库已主要用于发育或组织功能特定化。
一些多基因疾病的全基因组关联研究(GWAS)信号也富集了基因座编码的转录因子(图4C)。这些疾病中的很多都具有强烈的免疫依赖性,表明许多免疫反应相关的转录因子所具有的突出作用。此外,许多独立的转录因子基因座具有针对多种疾病的强GWAS信号。例如,编码Ikaros基因家族C2H2-ZFS的基因座中,突变体IKZF1 和IKFZ3,在适应性免疫应答中起到了至关重要的作用。
转录因子的模块化结构有助于突变影响的机制的识别。DBD突变会改变序列特异性,位于DBD之外的突变也可能对基因表达产生很大的影响。在癌症中,染色体异常可以产生具有新功能的癌融合蛋白,例如Ets因子ERG和 FLI1 与RNA结合蛋白EWSR1融合。同样的,对于任何基因,在控制TF表达的调节区内的突变,最终导致TF功能改变。例如,在驱动MYC 表达的增强子中弱化TCF7L2(TCF-4)结合位点可降低结肠中肿瘤发生的风险。
转录因子作为一类独特的基因,它们的结合位点会受所调节的DNA的变异或突变影响。目前发现了许多这样的例子,其中涵盖了大量的的转录因子家族疾病。更深入地了解转录因子对于如何找到对应目标并控制基因表达模式对于我们了解85%-93%的常见疾病相关的遗传变异有极大的帮助。
基因组中的大多数的功能性DNA都是具有调节性的,转录因子在其的识别和功能发挥中起着核心作用。在许多人类疾病中TFs有着明显的作用,使得理解转录因子所介导的基因调控机制的重要性更加突出。目前所面临的挑战依然存在,包括解决调节相同基因的多种元件之间的协同作用和冗余,预测增强子-启动子的联系,沿染色体及其三维结构上大规模调控的特点,以及各种类型的表观遗传记忆。解决这些挑战的计算机方法是正在进行中,开发探索转录因子在成核和调停的实验技术同样也在进行着。这些进展将有助于我们达到下一个人类遗传学前沿:以TF的方式解码基因组。
Origin: Lambert SA, Jolma A, Campitelli LF, Das PK, Yin Y, Albu M, Chen X, Taipale J, Hughes TR, Weirauch MT, The Human Transcription Factors.Cell 2018 Feb 08;172(4)
IF: 31.398 Cell 2018 Feb 08;172(4)DOI:10.1016/j.cell.2018.01.029
网友评论