文献第一部分
scATAC:人类基因组的染色质可及性图谱
INTRODUCTION
人体由各种器官、组织和细胞类型组成,每一种都具有高度专业化的功能。在每种组织和细胞类型中表达的基因——以及它们在体内的生理作用——受到(如增强子和启动子)的调节。这些序列通过以细胞类型特异性方式募集序列特异性转录因子 (TF) 来决定靶基因的表达模式。在 TF 结合后,顺式调控元件经常采用构象变化,使它们更容易被内切核酸酶或转座酶所接触,从而通过将这些酶与高通量测序相结合的分析在全基因组范围内发现候选顺式调控元件 (cCRE)。然而,传统的检测在很大程度上使用异质组织作为输入材料来产生群体平均测量值,因此,人类基因组中候选调控序列的当前目录仍然缺乏关于大多数调控元件的细胞类型特异性活性的信息。这种限制阻碍了我们研究不同人类细胞类型中基因调控程序和解释人类基因组中非编码 DNA 的能力。
全基因组关联研究 (GWAS) 已经确定了与广泛的人类性状和疾病相关的数十万种遗传变异。这些变异中的绝大多数是非编码的。在疾病相关组织和细胞类型中注释顺式调节元件的观察结果富含非编码疾病风险变异(导致假设非编码变异影响疾病风险的主要机制是通过影响特定细胞类型中的转录调节元件。然而,由于人类基因组中缺乏细胞类型解析的调控元件图谱,这些非编码风险变体的注释受到了阻碍。尽管以前使用精细映射区分连锁不平衡 (LD) 中的因果变异和局部变异的方法,以及使用单细胞中开放染色质区域的共可访问性将变异与靶基因联系起来的方法 (Pliner et al ., 2018) 或基于 3D 染色体接触的连锁评分在确定因果变异的优先级和预测其靶基因方面取得了重要进展,但对非编码变异的功能解释仍然具有挑战性。
通过基于液滴的组合条形码或其他方法实现的单细胞组学技术现在能够以单细胞分辨率从复杂组织中分析转录组、表观基因组和染色质组织。特别是,基于组合细胞条形码的检测方法,如 sci-ATAC-seq ,无需对单个细胞类型进行物理纯化即可识别单核中的 cCRE。所得数据可用于从混合细胞群中解卷积细胞类型,并剖析原发组织中细胞类型特异性转录组和表观基因组状态。尽管这些工具已应用于哺乳动物组织,包括小鼠生物样本,但人类胎儿组织和一些单独的成人人体器官系统,我们仍然缺乏来自成人人体大多数主要组织的 cCRE 的综合细胞类型解析图。
在本研究中,我们使用针对快速冷冻原发组织优化的修改后的 sci-ATAC-seq
protocol来分析来自多个供体的 30 种成人人体组织类型的染色质可及性。我们从这些组织中分析了 615,998 个细胞核,根据染色质景观的相似性将它们分为 111 种不同的细胞类型,并从结果图中确定了与 cCRE 对应的 890,130 个开放染色质区域的联合。接下来,我们将这些数据与最近的染色质可及性胎儿细胞图谱相结合,以揭示人类生命周期中 > 130 万个细胞的开放染色质谱和 1,154,611 个 cCRE 的染色质可及性图谱,覆盖基因组的 14.8% 222 种细胞类型。最后,我们使用这个 cCRE 图谱来解释与 240 种复杂人类特征和疾病相关的非编码变体的细胞类型和靶基因,揭示细胞类型与疾病的关联,并提出人类细胞类型中的相关治疗靶点。我们创建了一个交互式网络图谱来传播该资源(cis-element ATLAS [CATLAS];http://catlas.org/humanenhancer)。
网友评论