标题:chromatin and gene-regulatory dynamics of the developing human cerebral cortex at single-cell resolution
发表时间:2021年8月
发表期刊:cell
研究材料:
scATAC :共13个样本,年龄从pcw16 pcw20 pcw21 cw24四个时期(每个样本都有重复)
scATACscRNA:8个样本,也是4个时期(每个样本有重复)
scRNAMultiome:3个样本 pcw 21,1个时期,三个重复
Multiome采样部位:大脑皮质(未找到大脑皮质哪一具体部位)
细胞数:scATAC-seq为31304个,scRNA-seq为57868个。(这是质控后的细胞数,原始scATAC细胞数为40512个,scRNA为62715)scATAC过滤掉的细胞数还是更多的
文章摘要:
大脑皮质发育的遗传扰动可导致神经发育疾病,其中包括自闭症(ASD)。为了确定对皮质发生至关重要的基因组区域,作者绘制了gene-regulatory elements 的活性,独立地和联合地生成了基因表达和染色质可及性的单细胞图谱。
揭示了关键转录因子 (TF) 在几乎连续的分化轨迹上的基因调控变化,区分了神经胶质谱系的表达程序,并确定了谱系决定 TF,这些 TF 在关联的基因调控元件和表达水平之间表现出强相关性。这些高度联系的基因在早期分化细胞中染色质状态是活跃的,与谱系承担的一致。
碱基对分辨神经网络模型(Base-pair-resolution neural network models)确定了在一个ASD群体中预测为破坏性的非编码突变的强细胞类型特异性富集,并确定了频繁破坏的TF结合位点。这种方法说明了细胞类型特异性映射如何为人类发育和疾病的控制提供见解。
Graphical abstractINTRODUCTION:
由转录因子(TF)结合变化驱动的顺式调控DNA元件活性的动态变化,是发育过程中表型转化的基础。测量染色质可及性的单细胞方法已成为该活性的敏感方法,并与测量单细胞转录组的工具相结合,具有破译TFs组合如何驱动基因表达程序的潜力。量化调控元件的动态活性还可以推断疾病相关遗传变异影响发育的时间点或细胞类型。例如,与自闭症谱系障碍(ASD)相关的遗传变异如何与大脑皮层发育的遗传程序相互作用,目前尚不清楚。
皮质生成是一个动态的、高度调节的过程,其特征是脑心室和室下区(VZ、SVZ)的apical and basal radial glia(RG)和中间祖细胞( intermediate progenitors)的扩张,即谷氨酸能神经元(glutamatergic neurons)的内向外生成,星形胶质细胞和少突胶质细胞的分化来源于背侧前脑以外的细胞类型,包括GABA能神经元、小胶质细胞和一些少突胶质细胞,也迁移并整合到皮质中。解决与这些发育轨迹相关的基因调控动力学需要在单细胞分辨率下研究染色质和基因表达状态。
为了绘制人类皮质发生的基因调控逻辑,我们从妊娠中期8周的人类胎儿皮质样本中生成了单细胞染色质可及性和RNA表达谱。这些成对的图谱揭示了一类基因,其附近有相对大量的putative enhancers,这些增强子的可及性对基因表达有强烈的预测作用。这些具有预测染色质(GPCs:genes with predictive chromatin)的基因通常是TFs,我们观察到它们的局部可及性先于循环祖细胞( cycling progenitors)中的谱系特异性基因表达。我们使用来自同一细胞的单细胞可及性和表达谱(多组学)验证了这些发现。
我们定义了皮质谷氨酸能神经元(glutamatergic neurons)的发育轨迹,揭示了与神经元特异性和迁移相关的TF motif 活性的持续进展,并探索了TF motif 可及性沿此轨迹的相关性。此外,我们还鉴定了胶质祖细胞(glial progenitors)的谱系潜能,并为两种不同的星形胶质细胞前体亚型提供了证据。
最后,我们训练了一个深度学习模型,从DNA序列推断碱基对解析、细胞类型特异性染色质可及性图谱。这些模型可以预测遗传变异对细胞类型特异性染色质景观的潜在影响,并优先考虑与ASD相关的罕见新发遗传变异,证明在皮质发育过程中利用单细胞和单碱基分辨率绘制疾病风险图的能力。
Figure 1DISCUSSION
在这里,我们生成了皮质发育关键时期的成对转录组和表观基因组图谱,并描述了DNA结合因子和顺式调节元件之间的分子相互作用如何调节基因表达程序。此外,我们还描述了rare noncoding, de novo mutations如何破坏这种逻辑。
我们鉴定了一组基因(GPC),这些基因富集谱系决定TFs,这些基因可通过来自单个细胞的局部染色质可及性信号预测表达水平,这可能是因为存在大量与表达相关的基因。这些联系让人想起了用于类似现象的其他术语,包括“super enhancers”和“super-interactive promoters”。此外,GPC的染色质可及性与某些循环祖细胞(cycling progenitors)中分化程度更高的细胞状态一致。最近,Ma等人报道了一种现象,通过这种现象,在类似定义的调节染色质区域的可及性描绘了潜在的未来细胞状态。
我们推测,许多增强子对谱系定义因子的协同作用使这些因子的表达更能抵抗干扰。谱系决定反式作用因子(TF)的高度协同调节可能是命运决定的一般原则,一旦关键分化基因被表达,就作为一种积极的反馈机制。有效地,一旦激活,这些增强子可能起到棘轮(ratchet)的作用,确保稳定的基因表达,并防止在面临外部或内部干扰时沿着分化景观回溯(backtracking)。
通过研究GluN迁移和成熟的轨迹,我们发现了一个分子程序,该程序在妊娠8周内是一致的,并由一系列基序定义。伪时间(pseudotime)内神经元调节活性的差异比发育阶段之间的差异更为显著。我们进一步发现,在伪时间(pseudotime)早期,TFs之间的共同可及性和调节相互作用的不同模式,而晚期TFs似乎更独立地发挥作用。
我们还观察到,在神经胶质细胞(glial cells)中,TF调节的基因表达程序大量共享,含有星形胶质细胞和少突胶质细胞典型标记的基因模块之间存在大量重叠。我们验证了其中几个基因在人类大脑皮层中的共表达。我们还提供了证据证明存在两种星形胶质细胞样胶质前体细胞谱系。尽管神经胶质模块广泛地相互连接,但我们发现循环细胞(cycling cells)中GPC的染色质活性可预测特定的分化状态,这表明进入细胞周期的祖细胞向特定谱系启动。
最后,我们将DNA序列与染色质可及性联系起来的可解释的细胞类型特异性深度学习模型可用于评估de novo, noncoding mutations的潜在调节影响。单个碱基对调控潜力的建模对于识别这些假定的因果突变至关重要,因为与开放染色质区域的简单重叠不能提供所需的特异性。我们观察到ASD患者的突变丰富,而对照组接近有害蛋白质编码突变的水平。我们预计,随着越来越多的大规模ATAC-seq和RNA-seq数据集在发育过程中可用,类似的方法将允许准确解释与其他发育障碍相关的非编码从头突变的基因调控影响
Limitations of the study
尽管这些数据跨越妊娠中期8周,但在早期和晚期进行分析将有助于进一步研究胶质细胞生成和神经元成熟,例如,将星形胶质细胞前体与成人亚型联系起来。特别令人感兴趣的是采用快速发展的谱系追踪方法来解决此处确定的发展轨迹。虽然多组数据验证了许多关键推断,但使用数据整合推断将单组ATAC-seq与RNA-seq连接起来并推断细胞之间的谱系关系是本研究的一个限制。
此外,我们的细胞特异性模型考虑variants对仅存在于特定细胞类型的峰的影响。因此,这些细胞类型特异性模型可能具有更大的意义,这是通过在pseudobulk peak调用中对更大的重叠突变集进行评分来实现的,以便更深入地了解受变体影响的特定细胞类型。最后,确认本研究中优先考虑的非编码从头突变的有害性质需要在同源细胞类型中进行分子验证。
小结
1.利用多组学的方法构建了单细胞转录组和表观组大脑发育图谱,描述了DNA结合因子和顺式调节元件之间的分子相互作用如何调节基因表达程序;
2.我们鉴定了一组基因(GPC)(可以通过染色质可及性活性区预测其基因表达),这些基因富集谱系决定TFs;
3.伪时间(pseudotime)内神经元调节活性的差异比发育阶段之间的差异更为显著。在伪时间(pseudotime)早期,TFs之间的共同可及性和调节相互作用的不同模式,而晚期TFs似乎更独立地发挥作用。
4.在神经胶质细胞(glial cells)中,TF调节的基因表达程序大量共享,含有星形胶质细胞和少突胶质细胞典型标记的基因模块之间存在大量重叠。
5.再开发了一种细胞类型特异性富集模型去预测变异可能在的细胞类型。
总结近两年cell文章发现,图谱类文章一般构建图谱进行描述+常规分析+构建机器学习模型/开发软件。
接下来将分版块介绍这篇文献所用到的不同的分析方法。
网友评论