美文网首页增强子Science相关 杂文献
文献阅读:细胞异质性的表观遗传学基础

文献阅读:细胞异质性的表观遗传学基础

作者: 生信start_site | 来源:发表于2020-12-29 09:27 被阅读0次

    这篇文献是今年的11月发表在Nature reviews上的一篇综述,题目是The epigenetic basis of cellular heterogeneity。主要是从几个表观遗传特征来说明细胞之间的异质性。并且总结了目前为止,在单细胞水平上的表观遗传分析实验的手段和方法,介绍了一些最新的研究进展。是表观研究的一篇很新也很细的文章。文章很长,可以慢慢阅读,也建议有时间的同学下载英文原文来看。

    摘要

    以单细胞测序为基础的基因转录水平的分析方法已揭示在形态上无法区分的细胞之间的表达水平存在显著的异质性。这种可变性对组织生物学和疾病状态(如癌症)有重要的功能暗示。在bulk细胞和单细胞样品中,表观基因组信息如染色质可接近性、核小体定位、组蛋白尾部修饰和增强子-启动子相互作用的图谱显示,染色质状态的这些特征有助于相关基因的表达或抑制。随着单细胞表观基因组分析方法的发展,能够对单个细胞的染色质状态进行高分辨率的映射。最近使用这些技术的研究提供了证据,表明染色质组织不同方面的差异共同定义了在其他高度相似的细胞之间基因表达的异质性。

    前言

    多细胞生物由具有不同生理功能的特化组织组成。尽管它们拥有相同或接近相同的基因组DNA序列,这些组织通过保持不同的基因表达谱在功能上有所区别。然而,即使是形态上同质也被发现在基因表达和刺激反应中表现出细胞间的差异。这种细胞异质性已经在许多生物体和发育环境中被检测到,并在组织和疾病状态(如癌症)的生物学中具有重要作用。它也常常与表型相关基因的表达异质性有关。例如,胚胎干细胞之间的表达异质性可以改变分化特征。此外,病原体细胞或癌细胞之间的表达异质性可能与人类疾病有关。取自同一肿瘤的癌细胞可以在形态和基因表达上表现出很大的异质性,而这些差异与治疗和疾病的发展有关。特别是,肿瘤干细胞表现出特定的基因表达、分化和增殖特征,有助于肿瘤发生和治疗耐药性。这些例子强调了基因表达的细胞间差异以及将这些差异与特定的细胞特性联系起来将提高我们对发育和疾病的理解。

    细胞间基因表达异质性是一个活跃的研究领域,多种机制被认为有助于这一现象。基因表达是一个多方面的过程,开始于将基因组DNA模板的一部分转录成信使RNA。转录以“爆发(bursts)”的形式发生,这是短时间转录活跃的状态被更长的转录沉默状态打断。随机转录爆发可能导致相似细胞之间表达水平的变化。此外,基因激活和抑制的细胞间差异可能导致表达异质性。在大多数细胞中,在任何给定时间里只有一部分基因是有转录活性的。这包括持续表达的“管家”基因,以及与细胞当前环境和发育状态相关的基因。一个基因是否被转录取决于转录因子和启动子等蛋白质与基因组调控元件如启动子和增强子的结合。在真核生物中,对这些调控元件的接近在一定程度上受到周围染色质环境的控制,包括核小体的定位和组成,组蛋白尾巴修饰和三维结构相互作用。染色质状态的这些方面通常被称为表观遗传标记(epigenetic marks),因为它们的持久性和它们对相关基因转录的强大影响(图1)。单个细胞之间的基因表达异质性可能是由这些现象以及其他未定性机制的组合引起的。

    图1

    实验方法对包含数千或数百万个细胞的样本进行操作(“bulk- cell”方法),为细胞群提供单个集合或平均信号。因此,它们不适用于解决细胞间基因表达和表观遗传标记的差异。新兴的技术能够对单细胞表观遗传标记进行分析,如染色质可及性、核小体定位、DNA甲基化、组蛋白翻译后修饰和enhancer-promoter相互作用(表1)或(表2)。在这篇综述中,我们总结最近的研究,使用单细胞方法从本质上揭示基因表达的异质性以及是否homogeneous群的细胞表现出染色质状态的变化。

    表1 表2

    测定细胞异质性

    (一)Bulk- cell方法测定细胞群之间的差异

    由于遗传和表观遗传因素的影响,来自同一生物体不同组织的细胞群表现出表型异质性。人类细胞之间的遗传差异包括倍性数目的差异,如单倍体配子和多倍体肌肉细胞。表观遗传差异,指的是在基因组序列水平之上运作的机制,有助于在相同遗传信息的细胞之间产生具有不同功能的特异细胞类型。例如,组蛋白尾部共价修饰的差异有助于在功能上区分小鼠中的辅助T细胞变体和native CD4 T细胞。这种细胞和组织类型的特异性对于复杂的多细胞生命的功能是非常必要的。

    组织的表观遗传特异性通过影响与这些特性相关基因的表达水平和/或潜力来影响细胞特性。了解组织和细胞类型之间基因表达的差异及其所带来的功能差异已成为现代分子生物学的一个突出主题。传统的全基因组测量基因表达的技术,如DNA微阵列和二代RNA测序(RNA- seq),是在包含数千或数百万的bulk- cell 样本上进行的,并提供基因表达的平均概况。类似地,bulk- cell表观基因组学方法,如ChIP-seq提供了许多细胞组蛋白修饰的平均profile。虽然这些bulk- cell方法提供了关于不同细胞群体间基因表达和表观遗传标记富集差异的有价值信息,但这些方法缺乏解决群体内细胞间异质性所需的分辨率(图2)。

    图2

    (二)单细胞方法测定群体内差异

    细胞间基因表达的异质性往往与细胞发育潜能或疾病特征的功能差异有关。例如,人类诱导的多能干细胞包含一些细胞亚群,这些细胞亚群表现出与多能性和细胞命运“选择”相关的基因表达差异。同样,重要的多能性基因Rex1和Oct4的表达异质性揭示了小鼠胚胎干细胞的亚群为分化成不同的细胞系做好准备。由于表达异质性与细胞分化、发育和疾病有关,因此了解群体内细胞间表达的差异以及这种差异产生的机制是很重要的。虽然在20世纪90年代,基因表达在单个细胞中得到了成功的测定,但这些研究通常依赖于人力的方法,如将引物和酶注射到人工分离的细胞中。随着时间的推移,通过微阵列技术的改进和RNA- seq的出现,单细胞技术的通量和分辨率得到了极大的提高。特别是,基于测序的方法能够同时提供数千个单个细胞的基因转录组图谱。事实上,单细胞RNA- seq (scRNA- seq)的广泛应用表明,高度相似的细胞之间的转录异质性似乎是真核生物、细菌和clonally来源的细胞群体之间的普遍现象。

    表观遗传机制,如染色质状态的变化,为细胞基因表达异质性的贡献提供了有吸引力的candidates。在过去的十年中,基于测序的方法已经开发出来,可以在单个细胞中产生基因组范围内的表观遗传标记(表1)。这些方法测定了群体内单个细胞之间的表观遗传差异,使多种应用成为可能,这在使用bulk- cell方法时是不可行的。例如,在细胞周期中发生的表观基因组变化可以在传代培养物中直接分析,而不需要化学干扰。此外,在一个细胞群体内的表观基因组状态具有微妙的可塑性,例如在个体干细胞之间表现出可变的分化启动,这就需要使用单细胞技术。最后,使用单细胞方法可以在不需要抗体或荧光细胞标记的情况下,以一种unbiased的方式识别较大组织或培养物中罕见的细胞亚型。这些优点也使单细胞表观基因组学方法成为研究细胞间基因表达差异机制的理想方法。

    虽然单细胞方法可以揭示单个表观遗传标记在细胞间的异质性,但这些方法无法同时描绘同一单细胞中多个标记与转录水平。因此,这些技术只能表明表观遗传现象和转录水平之间存在相关性,而不能直接证明这些关系。为了解决这一局限性,研究人员正在开创“多组学”方法,这些方法能够与基因表达和/或染色质状态的其他方面共同描绘表观遗传标记(表2)。

    (三)限制性与辅助方法

    以测序为基础的单细胞RNA表达和表观基因组修饰技术依赖于目标序列的扩增。因此,它们可能会受到扩增偏倚、文库大小差异、缺失数据或低RNA捕获率引起的实验噪音的影响。尽管多个计算技术已经开发能够减轻这些噪音的来源,目前限制scRNA - seq是转录本定量通常仅限于那些最高的基因表达,通常每个细胞只有5000 - 9000表达的transcripts。基于荧光的非测序方法,如荧光原位杂交可以作为验证scRNA- seq发现的平行方法。特别是,单分子RNA荧光原位杂交技术为单细胞转录本分析提供了一种互补的方法,由于其灵敏度,可以准确量化低表达的基因。与scRNA- seq数据不同,目前还没有实用的基于成像技术来验证来自单细胞染色质可接近性、DNA甲基化和组蛋白修饰实验的结果。这些数据集大多数通过与相应的增强子或启动子信号富集的bulk- cell数据的比较来进行基准测试(详情请参阅以下部分)。然而,值得注意的是,基于三维结构成像的分析现在可以独立验证一些使用高通量染色体构象捕获(Hi- C)识别的单细胞三维染色质相互作用。

    染色质可接近性

    (一)细胞间染色质可接近性的差异

    染色质包括高度浓缩和难以接近的区域,也包括较松散的区域。染色质中DNA的可接近性,尤其是在顺式调控区域,如增强子和启动子,影响着基因的转录亲和性,从而在促进或抑制基因表达中起着重要作用。基因组染色质易接近性可以测定,使用DNase I超敏感位点测序(DNase - seq), DNA识别可接近基于易消化的酶DNase I。 DNase I超敏的位点(DHSs)通常代表核小体减少的顺式调控元件,与转录因子和其他调控蛋白结合。染色质可接近性也可以通过ATAC- seq测定,这种方法类似于DNase-seq,基于对Tn5转座子的易感性来测定染色质可接近性。DNase- seq和ATAC- seq都已被用于单细胞分析,简称为scDNase- seq和scATAC- seq(表1)。早期的scATAC- seq方法代表了细胞通量和每个细胞的read密度之间的权衡。然而,最近发表的一种scATAC- seq方法改进的read密度为每个细胞10万个reads。与之前的scATAC- seq方法相比,scDNase- seq方法提供了更高的read覆盖率(每个细胞约35万个reads),但只有几十个细胞。由于DNase- seq和ATAC- seq检测到的大多数峰重叠,在接下来的讨论中我们将使用术语“染色质可接近区域”来指代DNase-seq检测到的DHSs和ATAC- seq检测到的染色质可接近位点。

    不同细胞的染色质可接近性存在很大的异质性。定量比较表明,两个单细胞之间大约25%的染色质可接近区域是不同的。在bulk- cell数据中可接近的染色质区域包含低read密度的细胞的可变频率低,而强烈的可接近染色质区域与多个组蛋白标记有关,表明组蛋白修饰可能有助于活跃转录调控元件的可接近性。不足为奇的是,在可接近性方面表现出低细胞间差异的基因启动子显著丰富了组成型housekeeping基因功能,如转录和RNA处理。

    (二)染色质易接近性的可变是功能性的

    可以假设染色质可及性的细胞间异质性来自于实验技术的差异,因此是人为的。这种可能性可以通过基因表达异质性和染色质可及性之间的相关性来研究。例如,由技术噪音引起的可及性变化将不会被预测与基因表达异质性相关。然而,在基因调控元件的染色质可及性的细胞间差异与相关基因表达的差异之间已经观察到强烈的正相关,支持了染色质可及性异质性的功能作用。此外,同时检查染色质可及性和基因表达的研究往往揭示了以其他方式无法揭示的相关性。例如,在bulk细胞数据中,可接近染色质区域的read密度与mRNA水平相关,达到一个较低的阈值,超过该阈值进一步增加密度,表达是不敏感的。这一观察结果表明,最低水平的可接近性足以促进转录复合体的结合。在单细胞中,高转录基因的启动子和增强子几乎均匀地与染色质可及区域重叠,表明转录水平与染色质可及性之间的联系广泛地适用于单个细胞。此外,单细胞染色质可及性数据已经成功地用于将人类白细胞分离成与已知的B细胞、T细胞和单核细胞类型相对应的主要clusters。这些结果不仅表明这些单细胞数据中染色质可及性的变化包含了bulk细胞方法无法获得的重要生物学信息,而且显示了单细胞方法的独特特性和应用方法。

    单个细胞分辨率下的基因表达和染色质可及性的单独分析表明,它们之间存在正相关关系,使用多组学方法对同一细胞中染色质可及性和mRNA进行共谱分析(表2)提供了直接证据,表明这些差异是相关的。例如,最近开发的一种方法将scATAC- seq应用于基因组DNA,而将scRNA- seq应用于同一细胞的mRNA。当在人类初级免疫细胞上使用时,这揭示了mRNA表达和每个细胞的染色质可及性之间的直接关系,而不需要在不相关的数据集之间绘制相关性。基因表达和染色质可及性的共谱分析也有助于直接关联和计算测试顺式调控元件与其所控制基因之间的关系。例如,一项研究从成年小鼠大脑皮层获得的单细胞基因表达和染色质可及性数据中鉴定了超过30,000种新的调控关系。使用这两种数据类型更容易识别远端调控关系,并且结合使用远端和近端调控元件比单独使用近端元件更能准确预测基因表达。识别和描述这些功能关系的能力强调了单细胞多组学分析的价值。

    与可以通过RNA荧光原位杂交等方法直接验证的scRNA- seq数据不同,没有平行的方法来验证从scDNase- seq或scATAC- seq数据集中发现的特定染色质区域的可及性在细胞间的差异。即便如此,scDNase- seq或scATAC- seq数据的基准可以通过比较pooled的单细胞数据和来自ENCODE等来源的bulk-细胞“金标准”数据来完成。此外,scATAC- seq和scDNase- seq数据质量可以通过使用单细胞数据对混合细胞群进行计算聚类分析来独立评估。例如,如上所述,人类白细胞产生与B细胞、T细胞和单核细胞类型相对应的簇,表明scATAC- seq提供了有意义的生物信息。

    (三)细胞周期和转录因子是染色质可及性变化的基础

    最近的研究表明,染色质可及性的细胞的差异可能来自细胞周期阶段的不同步性和转录因子表达和/或结合的差异。例如,对传代的人类白血病细胞K562进行的scATAC- seq显示,ATAC- seq信号在细胞周期中不同复制时间的基因组区域内存在异质性。这些观察结果表明,在复制过程中DNA含量的变化有助于传代细胞中ATAC- seq信号的变化。其他研究表明,特定的转录因子表达/结合的可变性与相关结合位点染色质可及性的异质性高度相关,且这种关系独立于细胞周期效应。例如,对白血病K562细胞进行的scATAC-seq发现序列特异性转录因子GATA1和GATA2的异质表达(参考文献56),这两种转录因子对脊椎动物多种类型血细胞的发育和自我更新非常重要。这些因子的结合motif在统计上与染色质可及性的异质性相关,独立于细胞周期的影响。在小鼠心脏祖细胞中进行的另一项scATAC- seq研究发现,染色质可及性与转录因子ISL1和NKX2-5的结合有关(参考文献68)。此外,人类免疫细胞在记忆T细胞中发育相关转录因子AP-1、FOS和JUN以及单核细胞中CEBP和PU.1的结合位点上表现出明显的异质性。根据在这些免疫细胞中观察到的染色质可及性的异质性程度,很可能这些群体存在于“phenotypic continuum”中,而不是一组不同的染色质状态。

    尽管大多数序列特定的转录因子只有在染色质可接近位点能够识别相关的DNA motis,一些转录因子GATA -家庭和PU.1一类转录因子的成员被称为“pioneer factors”,它们能够在封闭区域结合。在封闭和异染色质区域中,pioneer factors与目标motif的结合可以导致易接近的染色质位点的形成。因此,上述免疫细胞间染色质可及性的异质性可能部分源于观察到的pioneer factors如GATA1、GATA2和PU1的表达异质性。相比之下,大多数不具有pioneering活性的转录因子可能依赖于染色质可及性的变化。因此,上述研究与一种模型一致,即pioneer factors结合和/或表达的异质性有助于染色质可及性的异质性以及其他序列特异性转录因子的结合(图3)。

    图3

    (四)不同的染色质可及性对发育和疾病的影响

    染色质可及性的异质性研究对疾病和发育产生了重要的作用。例如,许多癌症表现出高水平的细胞-细胞表观遗传异质性,这可能驱动癌细胞的进化和疾病的进展。在人白血病K562细胞系中,使用scRNAseq观察到细胞表面标记基因CD24在表达水平上存在异质性,并且CD24高表达与GATA2高表达相关(参考文献75)。细胞表现出高水平的CD24表达被分选出来,随后scATAC - seq分析显示GATA2结合motif染色质可接近性增加,与维持造血祖细胞状态的基因染色质可接近性也升高了(相对于表达低水平的CD24的细胞) (ref.75)。这些结果表明,K562细胞亚群比其他群体更具有“干性”。低分化亚群的存在与研究癌症干细胞如何促进患者的治疗耐药性和疾病复发有关。在另一项研究中,scATAC- seq数据显示,小鼠兴奋性神经元和肾小管细胞群体中的染色质可及性存在相当大的异质性,而且这种差异与细胞在其亲本组织中的位置相关。这一观察表明,实体组织内的表观遗传异质性部分来自于对细胞组织微环境的反应。这些例子突出了研究染色质可及性异质性的方法的潜力,为未来提供生物学见解。

    核小体定位

    (一)核小体定位的异质性取决于基因组背景

    核小体相对于DNA序列的定位在基因调控特征的组织中起着中心作用。利用微球菌核酸酶消化深度测序(MNase- seq)可以在全基因组范围内探索核小体的组织结构,利用微球菌核酸酶(MNase)消化可获得的DNA,并对剩余的蛋白质结合的DNA片段进行测序。该方法直接对核小体结合区域进行测序,与DNase-seq和ATAC- seq测序的无核小体DHSs不同(图4a)。MNase- seq最近已被用于单细胞分析(scMNase- seq)(表1),核小体组织的单细胞图谱增强了我们对核小体定位、染色质可及性和基因表达之间关系的理解。

    早期使用基于微阵列的DNA footprinting分析的研究表明,高度转录的基因通常包含一个无核小体的上游转录起始位点和一个在其下游的固定定位的' +1核小体'。使用MNase - seq检测人类T细胞,发现结合RNA聚合酶II (Pol II)的启动子在核小体定位位点在活跃基因的转录起始点的周围,在启动子和增强子上核小体的重组与基因活性有关(图1)。这一现象已在多种组织类型和生物被证实,与使用scMNase - seq的发现高度一致。此外,scMNase- seq为核小体在转录沉默基因组区域的定位模式提供了见解。虽然bulk-细胞MNase- seq无法解决异染色质和沉默基因启动子的核小体组织模式,但scMNase- seq揭示了这些区域具有规则间隔但随机排列的核小体(相对于潜在的DNA序列)(图1)。这些规则排列的核小体可能来自于染色质重塑和组装因子抑制的染色质结构,而不考虑潜在的基因组序列。值得注意的是,这种排列的随机定位是细胞间异质性的来源,并与核小体相对定位于潜在DNA序列的活性基因的启动子和增强子形成鲜明对比。scMNase- seq还提供了关于DHSs周围核小体定位的信息。观察到两种不同的定位模式:一种位于核小体两侧之间,平均距离为~190 bp,另一种平均距离为300 bp。在一个细胞群体中,80%以上的DHSs表现出两种间距类型相当大的异质性(图4b)。此外,这种核小体定位的细胞间差异与DHSs和靶基因表达的差异呈正相关。因此,DHSs可以通过其可接近的程度和其核小体间距模式来识别,这两者都有助于细胞的异质性。

    (二)核小体定位的异质性揭示了谱系priming

    细胞群可以基于单细胞数据集(如scMNase- seq)计算聚类。有趣的是,基于核小体定位的聚类分析发现,在缺乏相应基因表达差异的情况下,细胞亚群表现出明显的表观遗传模式。例如,基于细胞表面标记物的表达模式纯化的鼠native CD4 T细胞,表现出不同的细胞集群显示核小体消耗模式类似于辅助T 1 (TH1)或TH2细胞的细胞特异增强子上。Motif分析显示,TH1和TH2增强子的核小体丢失分别与细胞类型特异性转录因子RELA和GATA3的motif相关。这些结果表明,超过40%的naive CD4 T细胞在表观遗传学上被诱导分化为TH1或TH2细胞(图4c)。使用scRNA- seq数据的聚类分析无法检测到这些亚群,因为TH1或TH2特异性基因仅被启动,但尚未转录。此外,它们不会被bulk细胞表观遗传分析揭示,因为bulk细胞分析只提供了整个细胞群的平均谱。符合在小鼠naive CD4 T细胞中观察到的可能的表观遗传启动,40%的培养小鼠胚胎干细胞在胚状体特异性增强子中表现出核小体丢失。这些细胞也表现出核小体定位的异质性,这与与内胚层或中胚层markers相关的基因有关,这表明胚胎干细胞对不同的谱系,如髓系和神经管的命运是不同的。这个分化启动和核小体定位异质性可能导致部分细胞间的结合的谱系特定转录因子有差异(图2)。

    虽然scMNase-seq可以同时测量核小体的位置和染色质的可及性,其他一些技术可以还可以测定同一细胞中的DNA甲基化和/或RNA水平(表2),并揭示了在单细胞水平上染色质动力学的新见解。例如,一项使用DNA甲基化和染色质可及性的多组学分析的研究表明,Pol II的抑制导致着床前小鼠胚胎中基因近端无核小体区域的衰减。这些区域富集了与重要转录因子(如SP1和E2F4)相关的结合motif,支持转录在产生或维持这些近端无核小体区域中的致病作用。此外,对单个人类K562细胞和GM12878淋巴母细胞的核小体定位和DNA甲基化的串联图谱显示,无核小体区域的DNA甲基化是缺失的。研究发现,在小鼠干细胞分化过程中,这种负相关趋势越来越明显,表明染色质可及性、甲基化缺失和谱系启动之间存在潜在的关系。

    总的来说,本节讨论的研究支持了一种模型,即核小体中定位于活性启动子和增强子的细胞-细胞的差异将转录异质性与染色质状态联系起来,并通过谱系启动来决定细胞的命运。

    组蛋白修饰

    (一)不同的组蛋白修饰与不同的染色质状态有关

    染色质状态经常用组蛋白尾巴的修饰与否来描述。这些翻译后的共价修饰是由专门的表观遗传机制介导的,并对染色质结构和基因表达产生显著影响。在这些表观遗传标记中富集的染色质区域表现出的功能特征是单独绘制核小体组织所不能揭示的。组蛋白修饰主要使用ChIP-seq进行分析,这揭示了不同的组蛋白修饰在转录活性和转录抑制的染色质中不同模式的富集(图1)。例如,组蛋白H3K4me富集于活性基因,而H3K27me富集于沉默基因。与H3K4me和H3K27me相关的基因,被称为“二价修饰”,可能会根据细胞表面信号事件启动未来的激活或抑制。组蛋白尾部也可以乙酰化以促进基因激活,而去乙酰化则与基因沉默相关。然而,一项无偏差的全基因组乙酰化研究显示,这两种组蛋白乙酰转移酶和组蛋白去乙酰酶在许多沉默的基因启动子中中度富集。进一步的研究表明,H3K4沉默启动子,然后通过乙酰化机制的短暂进行乙酰化和去乙酰化的动态循环。组蛋白甲基化、乙酰化和去乙酰化的协同作用阻止了Pol II与这些基因的结合,但为它们未来的激活做好了准备。

    (二)组蛋白修饰的单细胞分析可以识别细胞亚群

    在第一次使用单细胞ChIP-seq分析在单细胞分辨率的组蛋白修饰的报告之后,一些最新的技术被开发出来,包括单细胞染色质免疫切割,然后测序(scChIC - seq),单细胞在靶标下切割并使用核酸酶释放(scCUT&RUN)和单细胞染色质整合标记测序(ChILseq)。采用Tn5转座酶介导的tagmentation也被开发出来,例如索引抗体介导的染色质tagmentation测序(iACT-seq),CUT&TAG和组合barcode和有针对性的染色质释放(CoBATCH)(表1)。结合split-pool barcode时,这些方法可以显著增加的通量,从数十或数百到成千上万个细胞。

    目前还没有建立平行的方法来验证上述单细胞技术检测的特定基因组位点组蛋白修饰的变化。这些数据集通常通过与pooled的单细胞数据和黄金标准的bulk细胞ChIP-seq数据比较,以及它们是否适合于将细胞群计算聚类为不同的细胞类型来进行验证。如果已知的细胞亚群存在于样本群体中,这样的聚类分析可以作为独立的验证,证明该方法提供了有用的生物学信息。例如,在人类白细胞中使用scChIC- seq获得的H3K4me3谱进行聚类分析,得到了与特征细胞类型包括B细胞、T细胞、自然杀伤细胞和单核细胞相对应的聚类。用CoBATCH对小鼠内皮细胞中H3K27ac乙酰化的单细胞图谱同样能够基于细胞的起源组织正确地聚集细胞。这些研究揭示了单细胞组蛋白修饰的映射可以识别细胞亚群,其能力与成熟的基于scRNA-seq数据的聚类方法相似。

    (三)单细胞组蛋白修饰的分析揭示了细胞异质性

    组蛋白修饰在建立对转录至关重要的染色质状态方面的重要作用表明,细胞间组蛋白修饰的差异有助于基因表达的异质性。事实上,多个单细胞研究已经确定了组蛋白标记中的细胞异质性,并建立了这种异质性与基因表达水平之间的相关性。例如,H3K27ac在小鼠内皮细胞中表现出不同程度的富集,这与与特定细胞系相关的序列特异性转录因子的表达相对应。与基因启动子和增强子相关的H3K4me2测定显示,在小鼠胚胎干细胞群体中存在相当大的差异。这种差异在多能相关的基因增强子和转录抑制基因上都可以观察到,这些数据集能够解析三个不同的胚胎干细胞亚群。此外,来自不同人类和小鼠细胞类型的单细胞H3K4me3图谱在每种细胞类型中都表现出显著的细胞异质性,而这种异质性被发现与基因表达的细胞异质性显著相关。在T细胞亚群中,这种异质性似乎与naive T细胞的分化表达转录因子BCL11B有关和TH1细胞的PRDM1的表达差异有关。综上所述,这些研究表明,组蛋白修饰的异质性往往与细胞群中特定谱系命运的不同亲和力有关。有趣的是,免疫细胞中的组蛋白修饰随着年龄的增长呈现出越来越大的异质性,这表明控制老年人表观遗传异质性/免疫细胞分化的机制可能发生改变。

    组蛋白修饰也被发现与核小体组织的异质性有关。例如,交叉引用scMNase-seq数据与bulk-cell ChIP-seq老鼠胚胎干细胞中的数据显示基因组区域中,富集的染色质组蛋白标记如H3K4me1 H3K4me3, H3K27ac, H3K9ac H2AZ,与丰富的异染色质的组蛋白修饰H3K27me3表现出高度的位置一致性 (reF.78)。启动子表现出活性和抑制性组蛋白修饰的“二价富集”,被发现与相关异构染色质可接近性相关。这些相关性表明,组蛋白修饰影响核小体的组织,或者,这两个过程共同受到相同的基本潜在机制的影响,最终影响到观察到的基因表达中的细胞异质性。

    理想情况下,上述组蛋白尾部修饰与其他类型表观基因组数据集之间的相关性将直接使用多组学方法进行测试。然而,多组学方法能够将组蛋白修饰与基因表达同时分析,与核小体定位或染色质可接近性还不能一起分析。在其他应用中,这些方法可以直接测试同一单个细胞中富集特定组蛋白修饰的染色质landscapes的基因表达。因此,这些类型的多组学方法需要阐明调节组蛋白修饰的细胞间变化的机制及其功能含义。

    DNA甲基化

    (一)用bulk细胞方法揭示DNA甲基化动力学和异质性

    术语DNA甲基化通常指修饰的核苷酸5-甲基胞嘧啶(5mC),它是第一个被识别的表观遗传因素,其发现早于我们对DNA作为遗传物质的理解。Bulk cell对5mC的全基因组定位方法为DNA甲基化的分布和动力学提供了广泛的见解。虽然5mC通常存在于开花植物的所有序列环境中,但哺乳动物DNA中主要富集5mC的序列是胞嘧啶5 '到3 '方向紧随鸟嘌呤的序列。这些CpG位点频率异常升高的基因组区域被称为“CpG岛”,在超过三分之二的基因启动子中存在,可以作为表观遗传调控开关,在甲基化时限制基因的表达。启动子CpG岛甲基化介导的基因沉默可在正常发育和肿瘤发生过程中发生。与组蛋白修饰带来的相对可塑性的转录抑制相比,启动子DNA甲基化导致的基因沉默更加持久。可能由于这种稳定性,这是主要的表观遗传沉默机制用于抑制内源性转座子、印迹基因和体细胞多能性相关基因。

    虽然大多数DNA甲基化是相对稳定的,但对bulk细胞的全基因组亚硫酸氢盐测序(BS-seq)显示,许多增强子和转录因子结合位点表现出动态甲基化状态,且在不同的人类细胞和组织类型中富集程度不同。DNA相关蛋白在这些位点的结合被认为与DNA甲基转移酶活性竞争,以产生不同的甲基化模式。

    (二)单细胞和多组学方法揭示DNA甲基化异质性

    用于全基因组5mC分析的单细胞方法的出现(表1),包括单细胞BS-seq,揭示了小鼠和人类细胞之间的大量DNA甲基化异质性。例如,等位基因特异性reporter使用表明,调控元件的DNA甲基化差异直接影响相关基因的转录,并有助于细胞间基因表达的异质性。相对于其他表观基因组数据类型,有许多多组学技术适用于研究单细胞中DNA甲基化异质性、基因表达以及其他表观遗传标记之间的功能相互作用(表2)。因此,许多此类功能相互作用已被详细研究。例如,启动子甲基化被发现与转录沉默相关,但远端调控元件的甲基化与相关基因的表达呈现出正相关和负相关的平衡。这些观察表明,DNA甲基化可能在基因启动子和增强子中扮演不同的角色。有趣的是,利用单细胞甲基组和转录组测序(scM&T),远端调控元件的甲基化异质性与异质性基因表达相关,揭示了DNA甲基化和基因表达变异之间的功能联系。虽然scM&T数据的计算聚类确认了甲基化和基因表达之间的显著相关性,但聚类模式也存在于DNA甲基化或表达数据中。这一观察表明,DNA甲基化和基因表达是互补的。另一项研究也使用了scM&T对小鼠肌肉干细胞中的DNA甲基化和基因表达进行共同分析。该研究发现,基因启动子的DNA甲基化异质性与相关基因表达的异质性水平较高有关。这些研究中的一致观察结果强烈支持多种细胞类型中基因表达异质性和DNA甲基化异质性之间的功能相互作用。

    有几种方法可用来共同分析DNA甲基化和其他表观遗传因素,如在同一单个细胞核小体定位和染色质接触(表2)。使用这些方法获得的数据提供了关于DNA甲基化在染色质生物学中的作用信息。例如,单核甲基染色质构象捕获测序(sn-m3C-seq)被用于对单个人脑前额皮质细胞的5mC和染色质构象进行共谱。该方法利用5mC图谱根据细胞类型精确地聚类细胞,从而能够识别细胞类型特异性的染色质组织特征。利用这种方法,可以确定细胞类型特异性染色质环,以及细胞类型特异性接触和DNA甲基化富集之间的相关性。一项类似的研究使用methyl-HiC对单个细胞中的5mC和染色质接触进行共谱,揭示了小鼠胚胎干细胞细胞核中空间接近的远端基因组区域之间DNA甲基化状态的协调。DNA甲基化也与核小体定位也可以一起进行研究:对多个小鼠着床前胚胎的细胞进行单细胞染色质landscape测序(scCOOL-seq),揭示了个体间强烈的表观遗传差异。例如,5mC分布和核小体定位在胚胎之间的异质性大于来自同一胚胎的细胞之间的异质性,这表明在解释从多个动物或人类患者收集单细胞表观基因组数据集的研究时必须谨慎。总之,这些描述DNA甲基化以及基因表达和其他表观遗传特征的多组学方法为涉及DNA甲基化异质性的染色质生物学和功能关系提供了独特的见解。此外,他们强调了未来将多组学方法扩展到其他表观基因组数据类型的好处。

    增强子-启动子的相互作用

    (一)基于3C的方法映射染色质接触和增强子-启动子相互作用

    在哺乳动物基因组中,顺式调控元件直接引导基因的转录,并且通常位于离它们所调控的基因数千碱基远的地方。在这些调控元件中有增强子,它可以促进包含多个非相关基因的目标基因在长基因组距离上的表达。哺乳动物基因组中包含的增强子比基因多很多倍,说明了这些调控系统在基因表达中发挥的重要作用。特别是,在发育过程中精确的空间和时间基因表达往往是通过使用复杂的增强子网络实现的。增强子能够通过染色质化和折叠与基因启动子形成物理相互作用来调控转录。这种增强子-启动子的相互作用是由于染色质的空间排列而发生的远程接触的例子。个体的成对接触可以在bulk细胞样本中通过染色质构象捕获(3C)检测来定量,同时Hi-C是一种基于测序的方法,能够在全基因组范围内定量远端染色质相互作用。对bulk细胞Hi-C数据的计算分析有助于绘制增强子-启动子相互作用的图谱,从而有助于阐明控制基因表达的调控关系。例如,许多增强子-启动子的相互作用已被发现与基因表达同时发生,并在基因被抑制时被消除。这些接触的功能性质是由富集活性组蛋白修饰和转录因子结合强有力的相关性支持的。

    bulk细胞映射染色质接触的方法提供了样本平均信号,不能解决细胞间的差异或异质性。在单细胞水平上研究染色质的空间排列,各种基于Hi-C的方法已经被介绍(表1)。使用这些技术,在不同类型的细胞中观察到染色质接触的大量异质性,这与不同的发育状态相关。例如,一项使用单细胞Hi-C的研究观察到,基于细胞周期阶段,单个小鼠胚胎干细胞的基因组组织存在显著差异,揭示了基因组复杂性,这在使用bulk细胞传代培养样品中是不可能观察到的。单细胞技术还使研究人员能够剖析染色质接触对干细胞发育事件和卵母细胞受精过程的贡献。例如,对小鼠胚胎干细胞的多组学Hi-C和DNA甲基化数据的计算聚类揭示了胚胎干细胞亚群的存在,该亚群显示甲基组模式与胚胎肢体发育相关。此外,单核相互作用组映射揭示了染色质的空间重组发生在小鼠卵母细胞到受精卵的转变,并将其与体细胞的组织状态进行对比。单细胞技术提供的灵敏度是必要的,以描述这种发育过渡,因为它发生在单细胞阶段。这些研究的结果突出了利用染色质接触的单细胞映射提供的灵敏度和分辨率获得的生物学上的见解。重要的是,基于成像的并行技术已经开发出来,能够验证使用基于序列的方法识别的染色质相互作用。例如,Hi-M,一种高通量、高分辨率、高覆盖、基于显微镜技术,可以同时可视化完整果蝇胚胎单个细胞的转录活性和染色体组织。类似地,多个超高分辨率显微镜研究提供了千碱基尺度上的染色质折叠和在单位点相互作用的信息。尽管它们相对较新,但这些高灵敏度的基于成像的方法代表了染色质接触映射的一个令人兴奋的前沿,并可能在未来促进多种类型表观基因组数据的协同可视化。

    (二)CTCF促进增强子-启动子相互作用,并限制表达异质性

    增强子-启动子的接触在顺式DNA调控元件和反式染色质结合因子调节。其中研究最多的反式因子是内聚复合体和CTCF。CTCF在染色质长距离接触的形成和更大的拓扑域的结构中是公认的关键调控因子,并在拓扑域之间或染色质浓缩区和开放区之间的边界处富集。CTCF结合位点的删除可以破坏它们之间的绝缘区域。一项单细胞Hi-C研究显示,CTCF/内聚素介导的染色质环在单个细胞之间是异质性的。除了在染色质结构域的结构组织中发挥作用外,最近的数据表明,CTCF还有助于更动态化增强子-启动子相互作用。在小鼠EL4细胞系中,使用三酶Hi-C (3eHi-C)分析染色质相互作用的无偏差分析显示,CTCF结合、调控区域的相互作用和增强子活性之间呈正相关。此外,CTCF结合位点被发现分散着增强子元素,活性基因启动子与CTCF结合位点的相互作用程度高于非活性启动子。有趣的是,尽管在CTCF knockdown后基因表达水平只有非常轻微的下降,但CTCF的缺失导致T细胞特异性基因Gata3、Thy1、Cd28和Cd5表达的异质性显著增加。此外,CriSPr–Cas9介导的Th1、Cd5和Runx3位点特异性CTCF结合位点的缺失损害了各自增强子-启动子的相互作用,导致其细胞间表达差异增加。综上所述,这些观察结果支持了增强子-启动子接触在细胞群中限制发育基因表达异质性中的作用。

    CTCF如何促进增强子-启动子相互作用和控制基因表达差异的呢?考虑到CTCF和内聚素在物理和功能上相互作用,并且CTCF结合位点和增强子在基因组中彼此穿插,一种可能的机制是CTCF结合增强子和启动子附近的区域,并通过与内聚素的相互作用使这些元素接近。因此,这将增加局部增强子和启动子的“浓度”,这将有利于增强子-启动子相互作用,并诱导靶基因的表达(图5)。在该模型中,降低CTCF结合和增强子-启动子相互作用会降低转录激活的有效性和一致性,增加靶基因表达的差异。

    图5

    发育基因的表达以一种间歇性的脉冲模式发生,在活跃和不活跃的转录状态之间以不规则的间隔转换。这种零星的激活导致了细胞间基因表达的异质性。此外,这些转录爆发的动力学具有高度的基因特异性,并受非随机因素的控制,如附近的顺式调控元件和周围染色质环境的特征。在最近对乳腺癌活细胞的单分子成像研究中,转录雌激素依赖基因TFF1在雌二醇处理后在不同细胞中表现出显著的异质表达水平(即使在激素饱和存在条件下)。有趣的是,这种异质性被发现与转录不活跃状态持续时间的显著差异相对应。TFF1上游近端增强子的缺失导致该基因的表达降低,这是由于与亲代细胞系相比,转录爆发量减少了两倍。这一结果表明,增强子-启动子的接触对于控制发育调控基因中转录活性状态发生的频率是不可或缺的,因此对限制细胞群中基因表达的异质性很重要。然而,目前尚不清楚TFF1的转录失活状态为何对雌二醇刺激没有反应,而激活状态却能显著增加转录爆发频率。一种可能性是这种反应可能需要特定的组蛋白修饰模式。这一观点得到了雌激素特异性染色质结合蛋白TRIM24的化学抑制的支持,TRIM24阻断了溴域与乙酰化组蛋白的结合,导致TFF1的诱导减少了三倍。总之,这些研究支持了增强子-启动子相互作用在控制细胞间基因表达异质性方面的重要性。

    最后的总结和展望部分就不翻译了,就是对前面的部分进行了一个总结。

    相关文章

      网友评论

        本文标题:文献阅读:细胞异质性的表观遗传学基础

        本文链接:https://www.haomeiwen.com/subject/rzoenktx.html