前言
细胞的行为和功能受其周围微环境和信号的影响,探究细胞如何根据其局部信号环境中的变化来调整自身状态,以及它们如何协同组织成不同的多细胞群体,对于深入理解生物学中的各种关键过程(如发育、衰老和癌症)是至关重要的。研究者经常利用单细胞转录组数据探索这些细胞状态,但相比之下,Bulk转录组数据因其价格便宜、样本量大及深度测序等优势,蕴含着大量宝贵的信息。
因此,我们今天便介绍一个基于机器学习的工具--EcoTyper,能够从Bulk、单细胞、以及空间分辨率的基因表达数据中大规模地识别并验证细胞状态和多细胞群体。作者将EcoTyper应用于16种人类癌症的12个主要细胞系验证了工具的有效性。过去的研究已经为我们揭示了肿瘤中的不同表型,例如与T细胞的反应相关的“热”(T细胞炎症的)肿瘤和“冷”(T细胞耗尽的)肿瘤。这种分类在一定程度上解析了疾病特征,包括对ICI的反应,但过于简化了肿瘤微环境(TME)中的细胞类型和细胞状态。而EcoTyper克服了这一局限,为我们解析肿瘤的异质性提供了更为全面的信息。具体来讲,EcoTyper成功地识别了16种人类癌症的69种通过转录定义的细胞状态,并进一步发现了10种与预后相关且具有强烈保守性的多细胞群体。总的来说,EcoTyper为我们解析任何组织中的细胞生态系统提供了一个全新的、大规模的分析框架。
那么接下来,让我们一起来学习一下这项研究吧(ps:后续会和大家一起学习EcoTyper的代码实操哦)。
主要内容
1. EcoTyper分析框架
EcoTyper的框架包括三个主要步骤。第一步是基于CIBERSORTx分离和识别Bulk组织样本中特定细胞类型的基因表达特征。第二步是采用统计学习算法,包括无监督方法和有监督非负矩阵分解(NMF)的变体,来识别特定细胞类型的转录程序(“细胞状态”),量化它们在每个样本中的相对丰度,并在外部表达数据集中“恢复”它们。第三步是将这些状态组合成多细胞群体,多细胞群体可以理解为在多个样本中共同出现的细胞状态。
值得一提的是EcoTyper能够在不同的数据集和平台上分析细胞状态和结构。利用EcoTyper,我们还可以进行详细的表型分析和生物标志物的探索;利用已知的配体-受体配对深入探索细胞间的通信机制;在空间转录组数据中分析多细胞群体的结构和功能等。
image.png2. 鉴定16种癌症的转录细胞状态图谱
为验证EcoTyper的准确性,作者首先将其应用于500个模拟的非小细胞肺癌(NSCLC)肿瘤(Bulk),这些肿瘤是基于单细胞RNA测序(scRNA-seq)数据构建的。测试结果十分出色,其中,细胞状态的识别敏感性为0.92,阳性预测值为0.86,而且它在数量预测方面也表现良好,达到了0.93的Pearson r值(基于真实和预测比例之间的中位数计算Pearson相关性)。值得注意的是,EcoTyper不仅可以准确检测到丰度低至0.5%的细胞状态,还能区分那些丰度上相关的不同细胞状态(r≤0.6)。
作者首先选用了TCGA的数据作为训练集(16种癌症类型),数据包括5946个肿瘤样本和529个正常样本。基于CIBERSORTx,作者从这些数据中得到了一个12 * 6475的矩阵。进一步,利用EcoTyper工具,从中识别出了71种离散的细胞状态,每种细胞类型具有3-9种不同的状态。这些细胞状态大部分在多种癌症类型中出现,并在恶性组织显著富集。但同时,也观察到一些特定的细胞状态是组织特异的。例如,肿瘤组织与其相邻的正常组织,或者腺癌与鳞状细胞癌之间,都存在一些独特的转录程序或细胞状态,这些状态可以被用作区分它们的标志。
值得一提的是,EcoTyper不仅可以识别细胞状态,还可以将从一个数据集中学习到的细胞状态注释到另一个数据集中(有监督的方法)。因此,作者使用了单细胞数据(包括乳腺癌、结直肠癌、头颈鳞状细胞癌、非小细胞肺癌等共7套数据)评估EcoTyper识别的71种细胞状态的准确性,结果显示,94%的细胞状态(67/71)在单细胞数据中可以被显著恢复。此外,作者还发现各种细胞状态的标记基因是十分稳定的,留一法交叉验证结果为90%。后续的分析中,作者排除了两个在单细胞数据中可能为双胞体的细胞状态(内皮细胞3、纤维细胞7),即仅对剩余的69种细胞状态进行分析。
作者还使用了另一种方法验证EcoTyper结果的准确性,具体来讲,作者测试了在正常组织中富集的细胞状态是否会在单细胞水平上被重现,结果表明,单细胞水平和Bulk水平得到的在正常组织中富集的细胞状态具有显著的一致性。随后,作者基于文献和已有的数据对EcoTyper识别的细胞状态进行注释,从而确定他们的生物学含义。发现2/3的状态可在前人的研究中得到证实。而剩余的1/3新得到的细胞状态,作者选取M2样巨噬细胞的状态6,这一状态与泡沫状巨噬细胞有显著的相似性,是一个与动脉粥样硬化斑块频繁相关的含脂表型。为了证实这一状态,作者对具有高和低的泡沫状巨噬细胞含量的人类结直肠癌肿瘤活检标本中的基质细胞进行了Bulk RNA测序,结果与预期相符,EcoTyper识别的九种单核细胞/巨噬细胞状态中,状态6在富含泡沫状巨噬细胞的样本中显著富集。
image.png3. 细胞状态与预后
进一步的,作者想要探索细胞状态与预后的关联。结果表明,大多数细胞状态(69中的39)与总体生存率显著相关,并在考虑到分期、年龄和性别的多变量分析中,49%(n = 34)细胞状态同样显著。具体来讲,M1(状态3)和M2(状态4-7)的巨噬细胞亚群分别与较长和较短的生存时间相关。此外,在M2样状态中,AEBP1+泡沫状巨噬细胞是不良生存的前五大决定因素之一,这暗示泡沫状巨噬细胞可能在癌症的进展中起到关键作用,并有希望成为治疗靶点。与不良风险相关的其他显著状态包括CA9+成纤维细胞(状态8)和POSTN+成纤维细胞(状态3),两者都与肿瘤侵袭性有关,以及促血管生成的尖端样内皮细胞(状态2)。特定的白细胞主导了有利的生存结局,主要状态包括CCR7+初始/中心记忆CD4 T细胞,CD247+ NK细胞,CD27+浆细胞和XCR1+ cDC1样树突状细胞,这些与CD8 T细胞的激活有关。
为了验证结果的普遍性,作者使用PRECOG(n = 9,062)队列作为验证集。结果表明,TCGA和PRECOG之间的生存相关性高度一致(Pearson r = 0.73, p = 1.2 * 10^-12)。此外,作者还使用了一个具体的例子展现结果的一致性,在两套数据中的结肠癌、卵巢癌和胃癌中,M1和M2泡沫样巨噬细胞都分别预测了更长和更短的生存时间。
image.png4. 识别CEs
肿瘤不是单一的细胞群体,而是由多种细胞和他们之间的相互作用构成的复杂结构。作者基于共同出现和相互避免模式的数据驱动方法对细胞状态进行聚类,识别了10个多细胞群体,将其称之为“癌细胞生态型”(CEs)。CEs包含3-9个不同的细胞状态并且在人类癌症中普遍存在。接下来,作者统计了每个肿瘤样本中不同细胞状态的丰度,发现几乎每个肿瘤都有一个主导的CE,且大多数肿瘤都由多个CEs组成。
进一步,作者使用3个实验验证这10个CEs。首先,作者测试了CEs是否能够在不同的平台和独立的数据集中得以再现。他们分析了同时使用RNA-seq和微阵列两种方法的395个人类癌症标本,结果显示估计的CE水平在这两种平台之间存在显著的相关性。其次,作者测试了CEs是否富集了有互动潜力的细胞状态。与背景预期相比,60%的CEs在配体-受体对中显著富集。最后,作者验证了这10个CEs能否在单细胞数据中被检测到。将EcoTyper应用于单细胞数据(包括76个肿瘤和21个正常样本),为每个单细胞分配状态标签并将这些细胞状态与预先定义的CE进行匹配。在这里,作者评估了预先定义的CE出现的概率是否显著高于随机情况,结果表明,80%的CEs在scRNA-seq数据中可以以p < 0.05的显著性被检测到。90%在p < 0.06时可被检测到。作为补充,作者还计算了随机获取10个具有同样强烈的相关性的CEs的联合概率,发现P<10^-6。总的来说,这些数据验证了EcoTyper识别出的多细胞群体的准确性,并提出CEs为肿瘤中细胞组织的基本单位。
image.png5. 确定CEs的特征
在识别出10个CEs后,接下来作者探讨了它们的细胞、基因组和临床特征。结果表明,在训练集中,8个CEs在单变量模型中具有显著的预后意义,在对肿瘤分期、年龄和性别进行多变量调整后,仍有5个CEs具有显著预后意义。
CE1和CE2高表达的肿瘤分别以POSTN+成纤维细胞和基底样上皮细胞为标志,并与更高的死亡风险相关。CE3的特点是髓系细胞富集、微高卫星不稳定性,与多种癌症、特别是与胃反流相关的食管癌和胃癌有关。CE4高表达的肿瘤与肌肉生成和60岁以上的男性有关(部分是因为它们在头颈鳞状细胞癌和前列腺癌中的高患病率),而CE5到CE8高表达的肿瘤分别富集了与吸烟相关的突变、正常组织、与年龄相关的突变和适度的预后良好结局。CE9和CE10高表达的肿瘤是促炎性的(即富含白细胞),与较长的总体生存率相关,并分别以高度的免疫反应性和较高的B细胞含量为特征。
image.png6. 使用CEs预测总生存期和免疫治疗响应
首先,作者比较了CEs与两种分子分型(Bulk NMF聚类和6种TCGA定义的泛癌免疫亚型)对生存的预测能力。结果表明,无论是单独CEs构建的生存模型还是在调整了Bulk NMF和泛癌免疫亚型的多变量生存模型中,CEs都显示出明显的优势。接下来,作者使用带有免疫治疗和生存信息的数据共571名患者评估了CEs的预测能力。结果表明,以IFN-γ信号传导为特征的CE9在预测各种治疗类型和生存上优于其他CEs。此外,作者还将CEs与112种候选生物标志物进行了比较(这些生物标志物包括通过EcoTyper定量的69种细胞状态、通过CIBERSORTx计数的25种细胞类型、肿瘤突变负荷(TMB)和2种已发表的ICI应答的Bulk标志物)。结果表明,CE9具有最高的性能。总的来说,这些数据证明了CEs对生存和免疫治疗响应的预测能力。
7. CEs的空间分布模式
接下来,作者想要探究CEs是否在肿瘤组织中有固定的空间分布模式。在这里,作者主要关注了与良好生存相关的CE9和CE10。CE9中的T细胞状态表达激活和免疫调节基因,包括衰竭的标志物。而CE10的T细胞则表达初始和中心记忆细胞标志物。使用EcoTyper,作者发现CE9-T细胞与M1巨噬细胞、成熟的免疫原性树突状细胞和活化的B细胞等状态同时存在。而CE10-T细胞则与促炎性单核细胞、cDC1和初始/静息B细胞共存。这些结果在单细胞数据集中也得到了验证。
为了探索CE特异的表型是否在空间上有所不同,作者分别对GZMB(标记CE9-T)和GZMK(CE10-T)进行了多色免疫荧光(IF)染色。作者将EcoTyper应用于23个非小细胞肺癌患者的肿瘤,并选择了4个CE9和CE10组成不同的标本。为了将分析扩展到T细胞之外,作者进一步使用APOE+/CD68+和CCR2+/CD68+标记巨噬细胞/单核细胞。结果表明,IF测定的相对细胞状态丰度与EcoTyper推测的细胞状态丰度一致。APOE+/CD68+细胞定位于肿瘤核心,而CCR2+/CD68+细胞定位于肿瘤外围。无论在单细胞水平还是Bulk水平,这些发现都与10x Visium对人乳腺癌标本的EcoTyper反卷积结果一致。
为了确定其他细胞类型和癌症是否显示CE特异性共定位模式的证据,作者接下来通过空间转录组学研究了乳腺癌、结直肠癌、卵巢癌和黑色素瘤样本中的细胞状态关联。结果表明,无论发育谱系或癌症类型如何,细胞状态通常以CE特异性的方式共定位。接下来,作者使用一种空间自相关的统计度量--Moran 's I来评估CE间的相似性。发现一些CEs具有高度的空间聚集性(CE1、CE9、CE10),而另一些则更为分散(CE4、CE5、CE3)。在之前的训练集中确定的特定配体-受体对中,大约有2/3的CEs在空间上聚集,这意味着大多数CEs空间上接近,这可能增加了它们之间的相互作用。
此外,由于CE10比CE9距离肿瘤核心更远,并且在正常组织中也存在。作者假设CE10在肿瘤早期发展时早于CE9的出现。许多证据支持这一发现,如在鳞状细胞肺癌发生的最早阶段,CE10比CE9更为普遍;在恶性组织中,CE9比CE10更为普遍。此外,在从33名已知结果的受试者中收集的肺鳞状细胞癌的癌前病变中,CE10的相对水平较高与自发性退化显著相关。而CE9的相对水平较高则预示着发展为侵袭性癌症(AUC = 0.82)。总的来说,这些数据验证了EcoTyper的准确性,强调了CEs与肺癌早期发展的关系,并有助于探索TME的诊断和治疗潜力。
image.png
小结
从以上结果我们可以看出,EcoTyper能成功地从Bulk数据中识别了人类16种上皮细胞起源癌症的69种细胞状态,并进一步识别了10种CEs。作者还使用文献和实验验证了这些细胞状态的生物学功能,而CEs描述了多种细胞及其互作构成的复杂结构。作者验证了EcoTyper识别出CEs的准确性,并提出CEs为肿瘤中细胞组织的基本单位。
此外,作者发现无论是细胞状态还是CEs都具有良好的预测预后的能力。总的来说,EcoTyper展示了如何从Bulk转录组、单细胞转录组、空间转录组数据中推断并验证细胞状态和多细胞群体。在未来,我们可以将EcoTyper框架应用于各种疾病的转录组数据中,探索疾病发病机制,从而辅助我们得到更为有意义的科研结论。
好啦,本期分享到这就结束了,我们下期再会~
[参考文献]
Luca BA, Steen CB, Matusiak M, Azizi A, Varma S, Zhu C, Przybyl J, Espín-Pérez A, Diehn M, Alizadeh AA, van de Rijn M, Gentles AJ, Newman AM. Atlas of clinically distinct cell states and ecosystems across human solid tumors. Cell. 2021 Oct 14;184(21):5482-5496.e28. doi: 10.1016/j.cell.2021.09.014IF: 64.5 Q1 . Epub 2021 Sep 30. PMID: 34597583IF: 64.5 Q1 ; PMCID: PMC8526411IF: 64.5 Q1 .
网友评论