顶刊精读 | 整合细胞状态、可塑性和遗传学的胶质母细胞瘤模型

作者: BioJournal_Link | 来源:发表于2024-08-20 19:08 被阅读0次

Basic Information

英文标题： An Integrative Model of Cellular States, Plasticity, and Genetics for Glioblastoma
中文标题：整合细胞状态、可塑性和遗传学的胶质母细胞瘤模型
发表日期：NA
文章类型：Article
所属期刊：Cell
文章作者：Cyril Neftel | Mario L. Suvà
文章链接：https://www.sciencedirect.com/science/article/pii/S0092867419306877

Highlights

Para_01

四种细胞状态驱动胶质母细胞瘤恶性细胞的异质性
体内单细胞谱系追踪支持这四种状态之间的可塑性
遗传学和微环境影响每种状态下细胞出现的频率
TCGA亚型反映了最高频率的恶性状态及微环境

Summary

Para_01

多种遗传、表观遗传和发育程序驱动了胶质母细胞瘤的发生，这是一种无法治愈且了解不足的肿瘤，但对其精确表征仍然充满挑战。
在这里，我们采用了一种综合方法，包括28个肿瘤的单细胞RNA测序、来自癌症基因组图谱（TCGA）的401个样本的大规模遗传和表达分析、功能方法以及单细胞谱系追踪，以推导出胶质母细胞瘤中的统一细胞状态和遗传多样性模型。
我们发现胶质母细胞瘤中的恶性细胞存在于四种主要细胞状态中，这些状态重现了不同的神经细胞类型，受到肿瘤微环境的影响，并表现出可塑性。
每种状态下细胞的相对频率在胶质母细胞瘤样本之间有所不同，并受到CDK4、EGFR和PDGFRA位点拷贝数扩增以及NF1位点突变的影响，这些因素各自倾向于一种特定的状态。
我们的工作为胶质母细胞瘤提供了蓝图，整合了恶性细胞程序、它们的可塑性及其由遗传驱动因素调节的情况。

Graphical Abstract

Keywords

glioblastoma IDH-wildtype; single-cell RNA-sequencing; lineage tracing; glioblastoma stem cells; glioblastoma subtypes; EGFR; PDGFRA; CDK4; NF1

Introduction

Para_01

胶质母细胞瘤（异柠檬酸脱氢酶[IDH]野生型）是一种不可治愈的恶性肿瘤，治疗失败的主要挑战在于其异质性（Louis等人，2016年）。
遗传、表观遗传和微环境信号影响细胞程序并驱动胶质母细胞瘤的异质性。
异质性的一个层面体现在之前描述过的转录亚型。
基于整体表达谱的研究表明，至少存在三种胶质母细胞瘤亚型，即神经元倾向型（TCGA-PN）、经典型（TCGA-CL）和间充质型（TCGA-MES）（Verhaak等人，2010年；Wang等人，2017年）。
这些基于表达的亚型部分富集了特定的遗传事件；例如，PDGFRA变异在TCGA-PN胶质母细胞瘤中更为常见，而EGFR变异在TCGA-CL胶质母细胞瘤中更为常见。
这些亚型程序在同一肿瘤样本内也存在差异，多区域肿瘤采样显示不同区域的同一肿瘤中可以共存多种亚型，纵向分析表明亚型会随时间和治疗而变化，单细胞RNA测序（scRNA-seq）提示同一肿瘤中的不同细胞可以重现来自不同亚型的程序（Patel等人，2014年；Sottoriva等人，2013年；Wang等人，2017年）。

Para_02

胶质母细胞瘤细胞在肿瘤中的发育状态构成了另一层异质性。
胶质母细胞瘤劫持了神经发育的机制，并包含一组被认为是其驱动力的胶质母细胞瘤干细胞（GSCs），这些细胞具有促进肿瘤生长的潜力，并对放疗和化疗表现出优先抗性。
尽管各种标记物可以富集潜在的GSCs，但目前尚不清楚不同的GSC标记物是否隔离出不同的或相似的细胞状态，以及由不同GSC亚群产生的肿瘤是否具有可比较的或多样化的细胞组成。
此外，解析单向层级结构或更可逆的状态转变在多大程度上支配着胶质母细胞瘤和GSC生物学仍然具有挑战性。
因此，更好地理解胶质母细胞瘤中遗传、表观遗传、发育和微环境等各种异质性的来源是一个具有广泛治疗意义的关键目标。

Para_03

单细胞RNA测序(scRNA-seq)已成为全面表征组织中细胞状态的关键方法，无论是在健康状态下还是疾病状态下。
在胶质瘤中，我们已经证明可以通过推断染色体拷贝数异常(CNAs)或检测表达转录本中的突变来推断肿瘤的细胞结构，并将单细胞状态与遗传学联系起来。
尽管这些方法在解析异柠檬酸脱氢酶(IDH)突变和组蛋白突变胶质瘤的关键生物学特征方面取得了成功，但在胶质母细胞瘤中却更具挑战性。
特别是，遗传改变与表观遗传状态多样性之间的关系仍然不清楚，这对该领域构成了巨大挑战。

Para_04

这里，我们采用了一种综合方法来理解胶质母细胞瘤的转录和遗传异质性，结合了20例成人和8例儿童胶质母细胞瘤（共计24,131个细胞）的单细胞RNA测序、胶质母细胞瘤模型的单细胞RNA测序与谱系追踪以及来自癌症基因组图谱（TCGA）的401个大量样本分析。
我们发现胶质母细胞瘤中的恶性细胞存在于一组有限的细胞状态中，这些状态重现了（1）神经祖细胞样（NPC样），（2）少突胶质细胞祖细胞样（OPC样），（3）星形胶质细胞样（AC样），以及（4）间充质样（MES样）的状态。
尽管每个胶质母细胞瘤样本包含多种状态的细胞，但每种状态的相对频率在不同肿瘤之间有所变化。
我们表明这些频率与CDK4、PDGFRA、EGFR和NF1中的遗传改变有关，每种改变都倾向于支持一种特定的状态。
此外，通过将带有唯一条形码的体内单细胞RNA测序相结合，我们证明了各状态之间的可塑性以及单个细胞产生所有四种状态的潜力。
我们的工作为胶质母细胞瘤中恶性细胞的细胞程序及其可塑性和遗传驱动因素的调节提供了一个路线图。

Results

scRNA-Seq Charts Malignant Cells Heterogeneity in Glioblastoma

scRNA-Seq描绘了胶质母细胞瘤中恶性细胞的异质性

Para_01

为了全面探究IDH野生型胶质母细胞瘤中的肿瘤间和肿瘤内异质性，我们使用全长单细胞RNA测序（SMART-Seq2）对来自28名跨越成人和儿童群体患者的鲜肿瘤样本进行了分析（图1A和补充图S1A；补充表S1）。
为了专注于恶性细胞，我们根据存活标志物以及泛免疫标志物CD45对细胞进行了分选，并主要分析了CD45阴性的细胞，而对CD45阳性的细胞仅进行了有限的分析。
总计，7,930个细胞通过了我们的严格质量控制标准；平均每个细胞检测到了5,730个基因，这突显了我们数据集的高质量（补充图S1B；实验方法部分）。
我们通过结合三种方法将细胞分类为恶性细胞类型和非恶性细胞类型（图1A、1B和补充图S1C；实验方法部分）。
首先，我们基于每个染色体区域100个基因的平均表达推断出染色体异常（CNAs）。
该分析识别出了大多数细胞中的大规模扩增和缺失，包括胶质母细胞瘤的标志性变化：7号染色体获得和10号染色体丢失，这些变化在大多数成人但不是儿童肿瘤中被发现。
其次，特定细胞类型的标记基因集高表达使我们能够将一些细胞分类为巨噬细胞、T细胞和少突胶质细胞（图1B）。
第三，聚类分析（图1B；实验方法部分）突出显示了三个小规模的非恶性细胞群，它们缺乏染色体异常且高度表达了特定细胞类型的标记。
剩余的细胞形成了一个大的第四群（6,864个细胞），被认为是恶性细胞，并与染色体异常相关联。
这三种方法一致地将胶质母细胞瘤细胞分类为恶性细胞和非恶性细胞亚群。
恶性细胞在不同肿瘤之间存在显著差异（图1C和补充图S1D），这与先前的研究一致，这些研究表明恶性细胞之间的差异大于非恶性细胞之间的差异。

图1. 来自28个胶质母细胞瘤的单细胞分类 (A) 基于分析基因的平均相对表达量推断染色体CNAs。行对应细胞；非恶性(NM)细胞（缺乏CNAs）位于顶部，随后是恶性细胞（具有CNAs，如补充图1所定义），按肿瘤排序并在同一肿瘤内根据整体CNA模式聚类。 (B) 所有单细胞的t-分布随机邻居嵌入(tSNE)图。细胞根据是否存在CNAs（蓝色）或高表达巨噬细胞（青色）、少突胶质细胞（洋红色）或T细胞（绿色）的标记基因集着色。 (C) 所有恶性细胞的tSNE图，按肿瘤着色。

图S1. 与图1相关（A）我们队列中代表性胶质母细胞瘤子集的苏木精-伊红染色。图像显示了高级别胶质瘤的特点，包括显著的多形性和细胞核异型性。箭头突出显示血管增生，星号标记坏死区域，这些都是胶质母细胞瘤的特征性标志。

（B）在每个测序细胞中检测到基因的数量分布。

（C）根据拷贝数异常信号（x轴）和拷贝数异常相关性（y轴）将细胞（点）分类为恶性或非恶性，分类依据如红色虚线所示的阈值。拷贝数异常信号反映了拷贝数变异的程度，而拷贝数异常相关性则反映了单个细胞的拷贝数模式与其他来自同一肿瘤的恶性细胞之间的相似性（见方法详情）。映射到非恶性细胞类型的细胞以黑色显示，其余的以蓝色显示。

（D）上方：根据表达谱对所有恶性细胞进行层次聚类。下方：将细胞分配给肿瘤。成人肿瘤和儿童肿瘤分别用蓝色和红色突出显示。

Malignant Cells Intra-tumoral Heterogeneity Is Dominated by a Few Expression Meta-modules

恶性细胞肿瘤内异质性主要由少数表达元模块主导

待补充

图2. 肿瘤内恶性细胞间的表达特征异质性 (A) 上方：来自MGH105样本的恶性细胞之间的细胞到细胞相关矩阵，细胞按层次聚类排序。下方显示了将细胞分配给潜在重叠簇的情况。 (B) 定义自27个肿瘤中的269个潜在簇的特征的层次聚类。顶部高亮显示了潜在簇的分组，并用于定义元模块。 (C) 由同一组内的潜在簇中始终上调的基因组成的元模块。列出了选定的基因（见补充表S2获取完整列表）。 (D) 通过单细胞RNA测序测量的神经发育相关细胞类型中元模块的相对表达(Darmanis等人，2017年，Darmanis等人，2015年，Tirosh等人，2016b年)。误差线对应于标准误差。

图S2. 与图2相关（A）顶部：按层次聚类排序的MGH136恶性细胞间的相关性矩阵。底部：将细胞分配到潜在的簇中。

（B）顶部：通过对27个肿瘤分析定义的479个潜在簇进行层次聚类。底部：G1/S和G2/M细胞周期特征的表达得分。

（C）所有非周期性特征的tSNE图，根据它们的细胞得分聚类，并按元模块分配着色。圆圈和三角形分别表示源自成人和儿童肿瘤的特征。

（D）从10x获得的表达特征与Smart-Seq2分析得出的元模块一致。从10x数据集中得到的非周期性特征根据它们的两两相关性层次聚类（顶部显示），并通过Jaccard指数评估它们与六个元模块的相似性（底部显示），反映了重叠基因的比例。这一分析表明，大多数10x特征是明显簇的一部分，这些簇与Smart-Seq2分析定义的元模块一致。例外是一组由红色方框突出显示的特征。这些额外的特征以与其他特征及所有其他特征（除了来自重叠细胞簇的特征）之间的弱相关性为特征，因此并不构成一个重复出现的模块。此外，它们主要与核糖体蛋白基因或血红蛋白的高表达有关，而与连贯的功能注释无关。因此，我们认为这些特征主要反映了技术上的混淆因素。

（E）在MSigDB中的C2和C5基因集上对元模块进行的功能富集分析（Subramanian等人，2005年）。每个元模块的前十个基因集在热图中显示（见补充表S3）并按层次聚类排序。

（F）通过两种互补度量显示元模块与通过单细胞RNA测序（Nowakowski等人，2017年）剖析的神经发育细胞类型的相似性：颜色表示细胞类型和元模块之间基于全球表达值的相关性；圆圈大小表示元模块基因在给定细胞类型中最高度表达的基因中富集的显著水平（-log10(P值)）。以粗体显示的细胞类型被唯一地分配给一个元模块，该元模块的富集水平至少比其他细胞类型高出两倍，并且相关值位于前三名。

（G）将特征分配给肿瘤（成人用黑色表示；儿童用红色表示）。特征按照图2B所示的层次聚类模式排列成四个元模块，元模块间用虚线分隔。

（H和I）当分析限制在儿童肿瘤的特征时识别出的元模块。（H）中间：通过对7个儿童肿瘤分析定义的109个特征进行层次聚类。黑色方框标记了五个可能的仅限儿童的特征群组，这些群组源自多个肿瘤。顶部：将特征分配给肿瘤。底部：特征与六个元模块的相似性。

（I）六个主分析中的元模块（y轴；如图2B所示）与五个仅限儿童的元模块（x轴）的Jaccard相似性，这些元模块源自（H）中定义的特征群组，并按从左至右的位置编号。

Para_01

顶级得分基因和元模块的功能富集（图2C和S2E；表S2和S3）突出了两个与间充质相关基因（例如，VIM）及基因集合（超几何检验p值小于10的负九次方）高表达相关的元模块。
其中一个元模块与缺氧反应基因（例如，HILPDA）、应激基因（例如，DDIT3）以及糖酵解基因（例如，ENO2和LDHA）强烈关联，表明在某些肿瘤中，间充质状态与缺氧及增强的糖酵解有关。
我们将这些定义为间充质样（MES样）元模块：缺氧非依赖性（MES1）和缺氧依赖性（MES2）特征。

Para_02

其他四个元模块与神经发育基因相关，这些基因是神经元/胶质细胞谱系或祖细胞的特征。
其中包括元模块#3中的星形胶质细胞标记物（S100B、GFAP、SLC1A3、GLAST和MLC1），元模块#4中的少突胶质细胞谱系标记物（OLIG1、OMG、PLP1、PLLP、TNR和ALCAM），以及元模块#5和#6中的干细胞和祖细胞特征，包括神经前体细胞（NPC）标记物（SOX4、SOX11和DCX）。
一致的是，将这些元模块与来自胎儿大脑、成人脑以及胶质瘤非恶性细胞的单细胞RNA测序的神经细胞类型特征进行比较，元模块#3、#4和#6分别在星形胶质细胞、少突胶质细胞前体细胞（OPCs）和神经前体细胞（NPCs）中表达最高。（图2D和补充图S2F）

Para_03

因此，元模块模仿了发育中的细胞类型，但与正常程序相比存在重要扭曲（附表 S4），并相应地被命名为类似星形胶质细胞（AC-like）、类似少突胶质细胞前体细胞（OPC-like）和类似神经祖细胞（NPC-like）。
NPC-like 进一步细分为两个亚程序（NPC1 和 NPC2）（星级方法；附表 S2），它们通过包含与 OPC 相关的基因来区分 NPC1（例如，OLIG1 和 TNR）与 NPC2 中的神经元谱系基因（例如，STMN1、STMN2、STMN4、DLX5-AS1 和 DLX6-AS1）（图 S2E；附表 S2），这可能反映了 NPCs 向 OPC 或神经元分化的潜能。
每个元模块除了对应细胞类型的特点外，还有其他特征，这可能反映了它们与正常细胞类型程序之间的扭曲。
因此，尽管类似星形胶质细胞的元模块主要由星形胶质细胞表达，但它也在放射状胶质细胞（RG）中表达，并且含有如 HOPX 这样的 RG 标志物（Pollen 等人，2015 年）。
总体而言，胶质母细胞瘤内的异质性主要对应于类似于神经祖细胞、少突胶质细胞前体细胞、星形胶质细胞和间充质细胞的细胞状态。
这些状态在成人和儿童肿瘤之间大体一致，在独立分析的儿童样本中也观察到了这些状态（图 S2G-I）。

Cycling Cells and Hybrid Cellular States in Glioblastoma

胶质母细胞瘤中的循环细胞和混合细胞状态

Para_01

接下来，我们通过元模块和细胞周期程序的表达对所有肿瘤中的细胞进行了分类（图3A、3B和S3A）。
根据细胞周期特征的表达，每个肿瘤中有3%至51%的细胞被识别为处于细胞周期中（图S3B）。
处于细胞周期中的细胞在OPC样和NPC样的状态中富集（图3C），特别是在儿科肿瘤中（图S3C）。
这与正常的OPC和神经前体细胞的增殖一致，并且与我们在IDH突变和H3K27M突变胶质瘤中的先前观察相符合，这些胶质瘤分别由增殖的NPC样和OPC样细胞驱动。
然而，在胶质母细胞瘤中，与其他类型的胶质瘤不同，其他细胞状态——AC样和MES样——也含有相当数量的增殖细胞，可能反映了其非常侵袭性的特性（图3C）。
Filbin等人、Tirosh等人以及Venteicher等人的研究支持了这一发现（2018年、2016年、2017年）。
但是，在提及文献的具体年份和作者信息时，不应包含具体的参考文献数字。

图3. 恶性细胞被分配至细胞状态及其混合状态 (A) 热图显示了所有非增殖期细胞（左侧）和增殖期细胞（右侧）的元模块得分。在每组中，细胞按其最大得分排序，首先是映射到一个元模块的细胞，其次是映射到两个元模块的细胞（混合状态，标记为"H"）。

(B) 条形图显示了每个元模块得分最高的细胞百分比。成人和儿童肿瘤被分开展示，以证明它们各自不同的分布。误差线对应于通过自助法计算的标准误差。

(C) 条形图显示了在每个元模块得分最高的细胞中，增殖期细胞的百分比。误差线对应于通过自助法计算的标准误差。

(D) 条形图显示了共表达两种不同元模块的混合细胞（所有恶性细胞中的）的实际和预期百分比。预期百分比及其标准误差是通过打乱细胞得分来计算的（星号方法部分）。

(E) 胶质母细胞瘤的原位RNA杂交显示NPC样（CD24）、MES样（CD44）和增殖（Ki67）标志物。箭头突出显示代表性的CD24（蓝色）或CD44（红色）阳性细胞。箭头尖端突出显示了一个共表达CD24和Ki67的细胞。

(F) 细胞状态的二维表示。每个象限对应一种细胞状态，恶性细胞（点）的确切位置反映了它们对元模块的相对得分，而颜色则反映了增殖期细胞的密度（星号方法部分）。

图S3. 与图3相关 (A) 显示元模块表达的热图，其中行对应于所有元模块中的基因，列则对应于所有恶性细胞，分为非增殖期（左侧）和增殖期细胞（右侧）。在每组中，细胞按其最大得分排序，首先是映射到一个元模块的细胞，随后是映射到两个元模块的细胞（H，混合状态）。(B) 增殖期细胞的识别。显示了所有恶性细胞的G1/S和G2/M标记的细胞得分。定义为增殖期的细胞用绿色（G1/S）、紫色（G2/M）或红色（两者都有）标出。(C) 条形图显示了在每个元模块得分最高的细胞中，增殖期细胞的百分比。成人和儿童肿瘤被分开以展示它们不同的分布。误差线对应于通过自助法计算的标准误差。(D) 条形图显示了在成人（左侧）和儿童（右侧）胶质母细胞瘤样本中，共表达两种不同元模块的混合细胞占所有恶性细胞的比例。假设元模块的得分彼此独立时预期的混合细胞百分比定义为分别打乱每个元模块的细胞得分后得到的百分比；误差线对应于通过100次打乱细胞得分计算得到的标准误差。(E) 胶质母细胞瘤的原位RNA杂交分析，用于神经前体细胞样（CD24）、少突胶质细胞前体样（PDGFRA）、星形胶质细胞样（S100B）以及增殖（Ki67）标志物。每个面板中的箭头突出显示了相应标志物的代表性阳性细胞。箭头尖端突出显示PDGFRA和Ki67的共表达。(F) 在十个胶质母细胞瘤样本中，通过RNA原位杂交量化共表达标志物（混合状态，增殖期细胞）的细胞百分比。误差线对应于肿瘤间的标准偏差。

Para_01

有趣的是，尽管大多数胶质母细胞瘤细胞主要对应于四种状态之一，但15%的细胞高度表达了两个不同的元模块，因此被定义为"混合"状态（图3A和3D）。
一些元模块的组合很少出现，而其他一些组合（AC样/MES样、NPC样/OPC样和AC样/OPC样）则与一个简单的模型预期的一样常见，该模型认为不同元模块之间的表达是独立的（图3D；STAR方法部分）。
因此，我们的数据支持一种模型，即胶质母细胞瘤细胞跨越四种主要细胞状态及其介态的混合体，每种状态都有增殖潜力，但NPC样和OPC样的状态增殖能力更高。
元模块、混合状态以及增殖模式通过十个胶质母细胞瘤样本中的RNA原位杂交（RNA-ISH）得到了证实（图3E、S3E和S3F）。
最后，我们开发了一种"细胞状态图"，以总结这些状态及其介态中细胞的分布（图3F；STAR方法部分），这展示了增殖细胞的多样性，并将在下面用于进一步分析。

Limited Relationship between Genetic Subclones and Intra-tumoral State Diversity

遗传亚克隆与肿瘤内状态多样性之间的关系有限

Para_01

接下来，我们探讨了肿瘤内细胞状态多样性是否能直接反映肿瘤内的遗传亚克隆。
从单细胞RNA测序数据中检测单个细胞内的基因突变受到转录组部分覆盖范围的限制。
然而，大规模的染色体异常，如全染色体或染色体臂事件，可能基于每个染色体区域内大量基因的整体上调或下调而被稳健地检测到，这一点已经得到先前研究的证实。
推断出的染色体异常（见明星方法）使得能够在12个肿瘤中的37个遗传亚克隆中稳健地检测到，每个肿瘤中有2-5个不同的亚克隆（图4A、4B和S4A）。

图4. 在遗传和表达水平上的肿瘤内异质性 (A和B) 通过染色体拷贝数异常识别遗传亚克隆。展示的是根据特定染色体的扩增或缺失划分出的MGH125 (A) 和MGH102 (B) 的恶性细胞推断出的染色体拷贝数异常 (STAR 方法)。

（C）具有基于染色体拷贝数亚克隆的六个肿瘤的细胞状态图（如图3F所示）。细胞按其亚克隆着色。

Para_01

值得注意的是，每个37个亚克隆都包含处于细胞状态图四个象限中的多种细胞状态的细胞（图4C和补充图S4B）。
因此，细胞状态并非严格由任何遗传亚克隆决定，尽管某些亚克隆偏向于特定的状态。
为了量化这种偏向性，我们比较了来自相同亚克隆和不同亚克隆的细胞对之间的细胞状态。
平均而言，来自同一肿瘤的所有细胞对中有49%具有相同的状态。
来自相同亚克隆和不同亚克隆的细胞对之间具有相同状态的比例总体相当（51%与46%），因为只有8个亚克隆具有较高比例的相同状态细胞对（补充图S4C）（平均63%）。

图S4. 与图4相关 (A) 通过染色体拷贝数异常识别遗传亚克隆。显示的是从顶部到底部依次为BT771、BT749、MGH152、MGH151、MGH136、MGH105和MGH100恶性细胞推断出的染色体拷贝数异常，根据特定染色体的扩增/缺失将它们划分到不同的遗传亚克隆中。

(B) 具有基于染色体拷贝数异常的亚克隆的六个肿瘤的细胞状态图（如图3F所示）。细胞按其亚克隆归属着色（参见C中的颜色图例）。

(C) 在所有来自每个肿瘤的细胞对（白色）以及来自各个亚克隆的细胞对（如颜色图例定义）中，映射到同一状态（由B中的四个象限代表的状态之一）的细胞对比例。37个亚克隆中有8个亚克隆具有显著高比例的同状态细胞对（通过置换检验定义为p < 0.05），这些亚克隆用星号标记。

(D) 分析不同亚克隆间的差异表达基因，将每个单独亚克隆与其他在同一肿瘤内的亚克隆进行比较。热图显示了与各元模块相关联（Pearson R > 0.3）或位于区分亚克隆的染色体拷贝数异常区域内的差异表达基因的比例。右侧的黑条表示差异表达基因的数量。

Para_01

我们还评估了同一肿瘤内不同亚克隆之间差异表达（DE）基因的数量（图S4D）。
亚克隆的差异表达基因中位数为20个，其中大多数与元模块无关或不相关，而常常位于区分这些亚克隆的CNA位点内。
虽然我们只能检测到一些遗传事件，但基于CNA定义的亚克隆与对应于元模块的表达状态之间的有限关联表明，肿瘤内的大部分表达状态多样性并非由遗传亚克隆驱动。
这与我们在IDH突变和H3K27M突变胶质瘤中的先前观察一致。

Defined Genetic Drivers Influence the Distribution of Cellular States

定义的遗传驱动因素影响细胞状态的分布

Para_01

每个肿瘤至少包含四种细胞状态中的两种，大多数肿瘤包含所有四种状态（补充图5A），但不同肿瘤中这些状态的比例各不相同（图5A），甚至在同一肿瘤的不同区域之间也存在一定程度的变化（补充图5B）。
大多数肿瘤主要由神经上皮样细胞和少突胶质前体细胞样细胞组成，或由腺样细胞和间充质样细胞组成，尽管有些肿瘤具有其他模式（图5A）。
此外，对于这四种状态中的每一种，都有些肿瘤是以该状态为主的状态。
值得注意的是，成人和儿童胶质母细胞瘤似乎具有相似的模式，尽管与成人胶质母细胞瘤相比，儿童胶质母细胞瘤中腺样细胞较少（图5A和图3B）。

图S5. 与图5相关（A）对于每个肿瘤，我们统计了检测到的不同细胞状态的数量（共四种）。显示的是具有两到四种状态的肿瘤数量（没有一个肿瘤的状态少于两种）。

（B）左侧：MGH 105的MRI图像，用彩色圆点表示采样的区域。右侧：MGH105四个空间区域的饼状图（如图5A所示）。

（C）将TCGA亚型与细胞亚群联系起来。基于我们scRNA-seq数据中每种细胞亚群最高表达水平的标记基因被分类为六个细胞程序之一。这六个程序对应于四个恶性状态（根据元模块定义）和两种非恶性细胞类型：巨噬细胞和少突胶质细胞（参见图1）。显示的是每种TCGA亚型中被分类到这六个程序中的基因百分比。

（D）识别与特定细胞状态富集相关的基因。对于四种恶性细胞状态中的每一种，我们定义了高比例和低比例细胞的肿瘤，并检查了它们之间的差异表达。这是针对每种细胞状态中的细胞分别进行的（每个面板中的行），以便控制肿瘤组成的差异。显示的是所有基因的差异表达（高与低肿瘤的log2比率）以及至少在两种细胞状态下显著的基因（右侧），基因按平均差异表达排序。

（E） EGFR在AC-high肿瘤中的表达高于AC-low肿瘤，无论是在单细胞还是整体肿瘤中。对于四种细胞状态中的每一种，显示的是AC-low肿瘤（蓝色点）和AC-high肿瘤（红色点）中该状态下所有细胞的EGFR平均相对表达量。条形和误差线显示的是两个肿瘤子集的平均值和标准误差。最右侧的一对条形显示的是根据TCGA整体AC-like评分划分的AC-high和AC-low肿瘤中EGFR的整体表达（参见STAR方法）。

（F）在TCGA肿瘤中，具有特定元模块高整体评分的遗传事件的富集情况。对于四种元模块签名中的每一种，我们定义了一组具有高整体评分的TCGA肿瘤，并检查了三种高水平扩增（PDGFRA、CDK4和EGFR）及NF1下调的肿瘤比例。作为对照，我们将这些比例与所有TCGA胶质母细胞瘤进行了比较。星号表示显著性富集（p < 0.01，超几何检验）。

（G）顶部面板：染色体丢失与TCGA整体MES-like状态评分的相关性，如同图5B中所示的染色体获得情况。底部：聚焦于第5号染色体，包括丢失与MES1和MES2元模块整体评分及巨噬细胞标志物整体评分关联的显著性值（-log10(P值）），表明顶部面板所示的效果主要局限于MES1元模块。

图5. 在TCGA胶质母细胞瘤队列中，胶质母细胞瘤的细胞状态分布与染色体扩增相关 (A) 饼状图显示了我们队列中每个胶质母细胞瘤四种细胞状态的细胞比例。每个饼状图上方是肿瘤索引；儿童肿瘤用红色表示，复发性肿瘤标记为"R"。根据TCGA主体亚型进行分组，并标出。

（B）对TCGA胶质母细胞瘤队列的分析表明，EGFR、PDGFRA和CDK4的高度扩增分别与AC样、OPC样和NPC样细胞状态的高主体评分相关。图中显示的是关联性的显著性值，-log10(P值)，与高主体评分（显示在零线以上，表明细胞状态富集）或低主体评分（显示在零线以下，表明细胞状态缺失）相关的染色体扩增。单染色体获得与高度扩增区分开来（Brennan等人，2013年），后者与三种细胞状态（AC样、OPC样和NPC样）有着显著的相关性，而没有发现染色体扩增与MES样状态有关联。

Para_01

每个肿瘤中特定状态（或两种状态的组合）的主导地位与TCGA先前定义的三种大体亚型高度一致（图5A和补充图S5C）。
虽然TCGA-CL和TCGA-MES亚型分别对应于富含AC样状态和MES样状态的肿瘤，但TCGA-PN亚型则对应于两种不同的细胞状态的组合，即OPC样和NPC样（图5A和补充图S5C），这反映了这两种状态在胶质母细胞瘤中的典型共存现象（图5A），这妨碍了我们在大体RNA测序中区分它们各自贡献的能力。
同样，TCGA-MES亚型对应于上述定义的MES样恶性状态与大量的小胶质细胞和巨噬细胞的组合（补充图S5C），支持了它们在维持恶性细胞的MES样状态中的潜在作用。
之前提出的第四种亚型（TCGA-Neural）似乎主要反映了非恶性少突胶质细胞和神经元的主导地位（补充图S5C），这与最近的观察结果一致（Wang等人，2017年）。

Para_02

我们假设每个肿瘤包含多种细胞状态，但特定状态在肿瘤子集（即，肿瘤亚型）中富集，这可以通过个体肿瘤的遗传特性及/或微环境偏好某些特定细胞状态而非其他状态来解释。
例如，这可能是由于某些细胞转变被促进或抑制。
为了识别此类效应，我们首先利用单细胞谱系寻找与每种状态高频率相关的基因，但这些基因本身并不属于该状态的表达程序。
例如，我们在含有高频率AC样细胞（AC高表达肿瘤）和低频率AC样细胞（AC低表达肿瘤）的28个肿瘤队列中寻找差异表达基因。
为了控制这些队列中各状态比例的差异，我们分别比较了四种状态下的细胞（补充图S5D）。
因此，尽管AC高表达肿瘤主要由AC样细胞组成，它们也含有足够数量的MES样、NPC样和OPC样细胞，可以与AC低表达肿瘤中的相同状态进行比较。
这种分析确定了22个基因，在AC高表达肿瘤中始终高于AC低表达肿瘤（补充图S5D），以及16到41个与另外三种状态丰度相关的基因（补充图S5E）

Para_03

在AC-high肿瘤中上调最显著的基因是EGFR，与AC-low肿瘤相比，在来自四种状态的细胞中，AC-high肿瘤中的EGFR明显更高（超过7倍）（图S5E）。
这些结果表明，具有EGFR异常的肿瘤，因此在所有细胞状态下EGFR水平都很高，可能会有利于AC样细胞的高频率出现，这与先前关于EGFR作为调节星形胶质细胞分化因子的报道一致。

Para_04

为了系统地研究细胞状态与遗传学之间的关联，我们接下来转向了TCGA胶质母细胞瘤数据集中的401个批量样本。
批量表达谱反映了肿瘤成分多样性的平均情况，因此，每个元模块的表达定义了在批量样本中对应细胞状态丰度的粗略估计。
我们对每个批量样本进行了四个元模块的表达评分，并考察了表达分数与遗传特征之间的关联（图5B）。
正如上述分析所预期的那样，TCGA肿瘤中EGFR高度遗传性扩增与较高的AC样批量评分显著相关（p < 10^-5）。
类似地，PDGFRA和CDK4的高度扩增分别与OPC样和NPC样的评分相关，这与这些基因作为正常发育中OPC和NPC调控因子的已知作用一致（Lim和Kaldis, 2012, Zhu等人, 2014）。
因此，尽管OPC样和NPC样的丰度在很大程度上是相互关联的，并且共同定义了TCGA-PN亚型，但它们之间足够不同，能够检测到与相关调控因子扩增的差异性关联。
几种点突变也与特定的细胞状态相关，例如NF1改变与MES高表达的肿瘤（图S5F），但染色体数目异常具有更强的影响（图5B）；每个细胞状态与特定的染色体数目异常显著相关。
我们还观察到，在TCGA数据集中，5q染色体臂的缺失与MES样状态呈负相关（图S5G），表明该染色体臂上的基因缺失可能限制了MES样细胞的数量。
这一染色体区域编码潜在的间充质表达程序调节因子（如SMAD5和TGFBI），以及多种细胞因子和趋化因子（如CSF2、IL3、IL4、IL5、IL13和CXCL14），这些因子可能参与与小胶质细胞/巨噬细胞和其他免疫细胞的通讯（Wang等人, 2017）。

EGFR Drives an AC-Like Program and CDK4 an NPC-Like Program in Mouse Neural Cells

EGFR驱动小鼠神经细胞中的AC样程序，而CDK4驱动NPC样程序

Para_01

我们假设这些遗传改变中的一些可能通过增加细胞生长和/或诱导状态转变来促进特定的细胞状态。
为了验证这一假设，我们在从胚胎干细胞衍生的主要小鼠神经祖细胞中过表达了CDK4、EGFR以及对照GFP，并进行了表型特征分析和单细胞RNA测序。
支持我们的模型，过表达EGFR的NPCs诱导了类似AC的程序，这通过GFAP染色和单细胞RNA测序分析得到证实。
相反，过表达CDK4的细胞诱导了类似NPC的程序。
因此，这些癌基因促进了非癌性祖细胞向它们在肿瘤环境中也相关的细胞状态的转变。
由于EGFR和CDK4在推动细胞增殖方面有着既定的作用，我们还测试了这些癌基因对各自细胞类型增殖的影响。
我们观察到，过表达CDK4的小鼠神经祖细胞比过表达EGFR或GFP对照的细胞增殖更多。
而过表达EGFR的小鼠星形胶质细胞比过表达CDK4或GFP对照的细胞增殖更多。
这表明不同的神经细胞类型对这些胶质母细胞瘤癌基因的反应不同，这反映了我们在TCGA数据集中观察到的遗传学与细胞状态之间的关联。
综上所述，我们的结果支持一种模型，在该模型中，如EGFR和CDK4这样的癌基因在调控特定神经发育细胞类型的转变和生长中发挥关键作用，因此当它们出现在肿瘤中时，它们不仅驱动肿瘤进展，还可能塑造肿瘤内部的细胞状态分布。

图6. 胶质母细胞瘤致癌基因驱动定义明确的细胞状态 (A) 过表达EGFR、CDK4或eGFP的小鼠NPCs免疫荧光显微照片，用星形胶质细胞标记GFAP（红色）进行免疫染色。

(B) (A)部分所示GFAP+细胞的数量统计（星号方法）。

(C) 过表达EGFR（红色）或GFP（黑色）的细胞（按排名，x轴）在AC样特征(scRNA-seq评分，y轴)的评分。（星号方法）。

(D) 过表达CDK4（蓝色）或GFP（黑色）的细胞（按排名，x轴）在NPC样特征(scRNA-seq评分，y轴)的评分。

(E) 使用过表达eGFP、EGFR或CDK4的NPCs得到的生长曲线显示，在表达CDK4的细胞中增殖增加（p < 0.0001）。缩写如下：RLU，相对光单位（任意值）。

(F) 来自经过工程改造的NPCs衍生的星形胶质细胞的生长曲线显示，过表达EGFR的星形胶质细胞显著增长（p < 0.002，方差分析）。

图S6. 与图6和图7相关（A）主要的人类胶质母细胞瘤分析中的六个元模块（x轴）与使用相同方法从小鼠NPC单细胞RNA测序数据分析得出的四个元模块（y轴）之间的杰卡德相似度。比较基于人-小鼠同源基因，且根据最相似的人类元模块命名了小鼠元模块。

（B）上方：按层次聚类排序的小鼠NPCs过表达GFP、EGFR或CDK4的细胞间相关矩阵。下方：定义于（A）中的小鼠元模块的表达得分。

（C）主要的人类胶质母细胞瘤分析中的六个元模块（x轴）与使用相同方法从遗传性小鼠模型单细胞RNA测序数据分析得出的四个元模块（y轴）之间的杰卡德相似度。比较基于人-小鼠同源基因，且根据最相似的人类元模块命名了小鼠元模块。

（D）上方：三个条形码标记的小鼠胶质母细胞瘤模型中恶性细胞的细胞间相关矩阵，这些模型在转化后第11天（左两幅图）或第5周（右图）（星号方法），按层次聚类排序。中间：定义于（C）中的小鼠元模块的表达得分。下方：将细胞（按顶部和中间面板的顺序排列）分配给条形码；条形码按映射到它们的细胞数量排序（最高的位于顶部），所有孤儿条形码（每个只在一个细胞中出现）组合在最低的面板中以便紧凑显示。

（E）对于移植入免疫缺陷小鼠的患者来源的条形码标记细胞，与（B和D）相同。

Demonstration of Cellular Plasticity by Combined scRNA-Seq and Cellular Barcoding

通过单细胞RNA测序和细胞条形码技术结合展示细胞塑性的示范

Para_01

虽然已定义的遗传事件似乎驱动了最常见的细胞状态的身份，我们推测遗传因素可能只是不完全地偏向特定的细胞状态，使得通过细胞塑性维持了多种状态的存在。
为了实验性地测试细胞在不同状态间转换的能力，我们试图分离出处于特定状态的细胞，用它们在患者来源的异种移植（PDX）模型中启动肿瘤，并确定所产生的肿瘤中的状态分布。

Para_02

首先，为了分离特定状态的细胞，我们从元模块基因中寻找细胞表面标志物，并分别在NPC样和MES样状态的前四名基因中识别出CD24和CD44。
接着，我们从一个新鲜肿瘤样本(MGH143)中分离出CD24高表达细胞、CD44高表达细胞以及未选择的恶性细胞(CD45-)(图7A)。
我们选择了具有EGFRvIII遗传变异的肿瘤(图S7A)，这是一种EGFR的持续激活突变体，因此该肿瘤中有较高比例的AC样细胞和较少比例的NPC样及MES样细胞。
然而，这些后两种状态在CD24高表达和CD44高表达的细胞群中被有效地富集，这一点通过排序群体的单细胞RNA测序得到了证实(图7A、7B和S7B)。
然后，我们通过免疫缺陷小鼠的原位异种移植测试了这三种细胞群(CD24高表达、CD44高表达和CD45-)的肿瘤起始潜力(图7A和7B)。
每种细胞群都能在多只小鼠中稳健地引发胶质母细胞瘤，表明它们具有肿瘤起始潜能(图S7C和S7D)。
肿瘤发展后，我们通过单细胞RNA测序分析了患者源性异种移植模型(PDX)，以确定这些模型中的细胞状态谱，并将其与接种的患者样本进行比较(图7B)。

图7. 胶质母细胞瘤中的细胞转变（A）实验流程。从患者样本MGH143中分选出了不同组分的细胞，并将其正位注射到免疫缺陷小鼠体内以生成患者源性异种移植瘤（PDX）。对患者样本和PDX亚群进行了单细胞RNA测序。

（B）如（A）中所述的样本分别用饼图表示，展示了处于四种状态的细胞比例。饼图根据其分选组分以及是否代表注入样本或PDX样本定位在X轴上，并根据其与原始患者样本组成相似性（四种状态下曼哈顿距离的一减去该距离）定位在Y轴上。

（C）实验流程。携带致癌基因和独特条形码的慢病毒被注射到小鼠海马区（详细方法见STAR Methods），随后分析由此产生的肿瘤通过单细胞RNA测序。

（D）在多个细胞中识别出的条形码各自用饼图表示，展示了每种状态下细胞的比例。饼图的位置基于具有相应条形码的细胞数量（X轴）以及这些细胞中观察到的细胞状态数量（Y轴）。饼图大小与细胞数的对数2成比例。

（E）实验流程。从胶质母细胞瘤样本（MGH143和MGG23）建立原代培养，并感染携带独特条形码的慢病毒，随后将这些培养物异种移植到小鼠脑内，并通过单细胞RNA测序分析形成的肿瘤。

（F）来自（E）的独特条形码以（D）所示的方式展示。

（G）胶质母细胞瘤细胞状态及其遗传和微环境决定因素的模型。有丝分裂纺锤体指示细胞周期中的细胞。较浅或较深的色调表示每个程序的强度。中间状态显示在四种状态之间，指示转变过程。

图S7. 与图7相关（A） EGFR基因位点，仅显示外显子1-8。不同个体细胞中的跨外显子连接读取（来自+链的为红色，来自-链的为蓝色）在MGH143患者和PDX中未分类、CD44+或CD24+分类的细胞群中进行映射，显示每个分类都有EGFR野生型读取以及跳过外显子2-7的读取（EGFR vIII）。

（B）基于细胞状态的二维表示（如图3F所示）。小灰色点反映了MGH143及其相关PDX的所有细胞，而较大的从黑色到红色的点则反映了相应样本中的细胞，根据来自同一样本的细胞密度进行着色（STAR方法）。

（C） MGH143患者样本（左）和整体PDX（右）的苏木精-伊红染色和Ki67免疫组织化学。肿瘤患者和PDX显示出相似的形态学（高级别胶质瘤的特点，具有重要的多形性和胞核异型性）和增殖情况。

（D）在初次神经症状出现时（注射后2-4个月），对MGH143整体、CD24+和CD44+亚群的PDX进行了小型动物磁共振成像。

（E）根据分析的100个基因窗口中的平均相对表达推断PDX样本中的染色体拷贝数变异。行对应于细胞，这些细胞通过所有存在拷贝数变异的基因位点的层次聚类进行排序。

（F）放大视图突出显示了在PDX细胞中检测到的4个亚克隆，其中包括三个次要亚克隆（#1-3，每个由3%-6%的细胞组成）和一个主要克隆（#4，由87%的细胞组成，包括放大视图下方的所有细胞）。

（G）饼状图显示了每个PDX中处于四种细胞状态的细胞比例，当将主要（底部）和次要（顶部）亚克隆的细胞分开时；在这个分析中合并了次要亚克隆，因为它们各自太小而无法独立分析。这一分析表明，细胞状态的分布与遗传亚克隆的分离在很大程度上是脱耦的。

Para_02

无论用于启动PDX的是哪种细胞群体—CD45−（主要包含AC样细胞）、NPC样或MES样—所衍生的肿瘤均含有这三种状态，且分布相似（图7B）。
实际上，在几乎所有情况下，衍生的肿瘤重现了原始患者样本中的细胞状态分布。
唯一的例外是一个源自CD24高表达细胞群的PDX；但即便这个PDX也有减少的分选细胞状态比例和增加的AC样细胞比例，而AC样细胞是患者样本中最常见的细胞状态，并与EGFR扩增相关。
这些结果表明，基线细胞状态分布可以在小鼠脑微环境中重现，而且更重要的是，细胞状态可以从分选状态过渡到其他状态，即使是从单一的分选细胞群体开始。
当对不同的PDX拷贝数异常亚克隆进行分析重复时，也得到了相同的结果（补充图S7E-G）

Para_03

为了进一步证明胶质母细胞瘤在单细胞分辨率下的细胞可塑性，我们结合了单细胞RNA测序(scRNA-seq)和细胞条形码技术，在遗传性小鼠模型和患者来源的移植瘤(PDX)模型中进行了研究。
首先，我们修改了一种胶质母细胞瘤的小鼠模型，在该模型中，含有H-Ras和shP53的慢病毒通过立体定位注射到GFAP-cre动物的海马区，这样每个转化细胞都会额外携带一个独特且可遗传的基因标签(图7C；STAR方法)(Friedmann-Morvinski等人, 2012年)。
对由此产生的小鼠肿瘤进行scRNA-seq分析显示，每个肿瘤中都包含了在人类胶质母细胞瘤中鉴定出的四种细胞状态中的三种(图7D、S6C和S6D)。
由于细胞增殖，许多可遗传的条形码在多个细胞中被识别出来，这些细胞也通过scRNA-seq被识别。
重要的是，这些条形码中有39%出现在不同状态的细胞之间，明确地证明了不同状态间的共同可塑性。

Para_04

其次，为了评估可塑性是否也出现在人类胶质母细胞瘤中，我们从患者样本中提取了两种主要的人类细胞培养物（MGH143 和 MGG23），用含有独特条形码的慢病毒感染它们（图 7E；星号方法），并将它们正位移植到免疫缺陷小鼠体内。
对由此产生的小鼠肿瘤进行单细胞 RNA 测序和条形码分析，识别出具有相同遗传条形码但对应不同胶质母细胞瘤状态的人类胶质母细胞瘤细胞。
值得注意的是，存在多个单一条形码在四种不同状态的细胞中被发现的例子，证明了一个单一细胞可以产生患者身上观察到的所有四种胶质母细胞瘤状态（图 7F 和辅助图 S6E；星号方法）。
总体而言，这些结果与胶质母细胞瘤细胞显示出状态可塑性相一致，并且表明了一种基线分布反映了通过细胞过渡和肿瘤基因型而产生的稳定状态。

Discussion

Para_01

更好地理解胶质母细胞瘤中的多种异质性来源及其相互关系是神经肿瘤学的一个关键目标，对治疗具有广泛的影响。
在这里，我们首先进行了迄今为止最全面的胶质母细胞瘤单细胞RNA测序分析，详细分析了来自成人和儿童的28个肿瘤。
每个肿瘤都是独一无二的，而肿瘤内的多样性是由遗传、表观遗传和微环境因素的组合驱动的。
然而，我们发现胶质母细胞瘤中恶性细胞的多样性汇聚成了少数几个重复出现的表达特征，因为几乎所有肿瘤内异质性的特征都被映射到了细胞周期或四种一般细胞状态之一。
尽管异质性通常被视为一个主要障碍，但细胞特征汇聚到少数几种共同的异质性模式上可能会有助于识别许多肿瘤共有的胶质母细胞瘤依赖性。

Para_02

每一种重复出现的细胞状态都与周期性细胞相关联，其中最高的比例出现在NPC样和OPC样状态中，特别是在儿童肿瘤中。
对患者中的中间状态以及PDX和谱系追踪实验的分析表明，这四种状态之间存在可塑性，有着多种可能的转变。
这意味着每个肿瘤由处于多种细胞状态的细胞组成，这些细胞可能会增殖或转变为其他状态。
这种动态行为意味着增殖率和转变率最终将决定一个稳态分布，并且可以预期在不同的肿瘤中会出现相似的分布，反映出每个细胞固有的增殖倾向或转变为其他状态的倾向。
然而，我们在不同肿瘤中观察到极为不同的分布，以至于每种状态在某些肿瘤中最常见，在另一些肿瘤中则最少见，这表明可能还有其他因素影响增殖率和转变率。
我们提出，某些遗传因素决定了特定的转变率，进而定义了一个稳态分布。
一个相关的遗传因素似乎是EGFR异常，它与我们的队列以及更大的TCGA数据集中AC样细胞的相对丰富有关。
同样，CDK4和PDGFRA的扩增分别与NPC样和OPC样状态的丰富相关，而5q染色体缺失和NF1改变则影响MES样状态的频率（图7G）。
这些遗传关联也可能解释成人和儿童胶质母细胞瘤中细胞状态分布的不同：在儿童肿瘤中，EGFR改变不如成人肿瘤常见，这与它们AC样细胞频率较低相吻合（图3B）。
遗传学与细胞状态之间的关联可能构成了TCGA整体表达亚型的生物学基础，因为肿瘤遗传学可能决定了更频繁出现的细胞状态，从而决定了平均（即，整体）表达谱（Verhaak等人，2010年；Wang等人，2017年）。

Para_03

实验上，这一模型得到了在神经祖细胞中超表达实验的支持，这些实验将遗传驱动因素与特定的细胞状态联系起来（图6），并且得到了先前研究的支持，在那些研究中，在巢蛋白(nestin)阳性神经祖细胞中EGFR的超表达引发了类似星形细胞瘤的肿瘤形成，而在相同细胞中PDGFRA的超表达则导致了类似少突胶质细胞瘤的肿瘤形成。
因此，与特定细胞状态相关的信号传导途径在肿瘤发生过程中可能会被选择，并在稳定特定恶性细胞状态方面发挥作用。
更广泛地说，这一模型与癌症发生涉及产生具有分化能力缺陷的自我更新群体的观点相一致。
这些遗传驱动因素中的每一个都可能使特定的细胞状态偏向于自我更新，从而促进主要由该特定状态驱动的肿瘤生成。
这一模型可以解释为什么从不同细胞状态衍生的PDXs惊人地汇聚到了与患者样本观察到相同的细胞状态分布。
因此，胶质母细胞瘤中的某些遗传驱动因素可能决定了特定的转换概率，并定义了稳态分布。
我们猜测这种定义状态转换的能力正在被选择，而EGFR、PDGFRA和CDK4不仅被选择来促进胶质母细胞瘤生长，而且还扩展并稳定了胶质母细胞瘤生态系统内的某种状态。
针对这样的遗传驱动因素可能调节状态分布，并有可能导致由不同状态的自我更新所主导的替代分布。
这样的情景或许可以解释为何在胶质母细胞瘤中针对单一信号传导途径的靶向治疗效果有限。

Para_04

总之，我们阐明了胶质母细胞瘤细胞表达状态的谱系及其可塑性，确定了重现神经发育、细胞周期和微环境影响的细胞程序。
通过展示特定的胶质母细胞瘤遗传驱动因素如何影响这些状态的频率，我们为胶质母细胞瘤的遗传异质性提供了细胞层面的相关解释，并提供了一个模型来解释为什么不同的整体表达程序，如TCGA亚型，会富集特定的遗传改变。
进一步的研究将需要评估转化机会，并评估现有治疗手段对驱动胶质母细胞瘤的细胞状态谱系的影响。

STAR★Methods

Key Resources Table

关键资源表格

Lead Contact and Materials Availability

主要联系人及材料可用性

Para_01

更多信息和资源及试剂的请求应发送至Mario L. Suvà (Suva.Mario@mgh.harvard.edu)，他将负责处理这些请求。

Experimental Model and Subject Details

实验模型与对象详情

Human Subjects

人类受试者

Para_01

在马萨诸塞州总医院（MGH）的成人患者以及波士顿儿童医院的儿科患者及其父母，在机构审查委员会协议DF/HCC 10-417和DF/HCC 15-370B下提供了术前知情同意参与本研究。
患者包括男性和女性。
临床特征总结于补充表S1中。

Cell lines

细胞系

Para_01

患者来源的原代培养物（MGH143，MGG23）在神经基质培养基（GIBCO 21103-049）中培养，该培养基补充了1X N2/B27（GIBCO）、1% 青霉素/链霉素（GIBCO）、1X 谷氨酰胺（GIBCO）、20 ng/mL 表皮生长因子和20 ng/mL 基本成纤维细胞生长因子（FGF2）。
MGH143的详细信息总结于（表S1）。
MGG23的详情见（Wakimoto等人，2012年）。

Para_02

利用已发表的协议从小鼠胚胎干细胞（V6.5）中建立了小鼠神经祖细胞（NPCs）(Kerman等人, 2015年)。
NPCs通过含有L-谷氨酰胺/碳酸氢钠的DMEM:F12（GIBCO 11320-033）培养基补充1X N2/B27、1%青霉素/链霉素、1微克/毫升层粘连蛋白（来源于EHS肿瘤）、20纳克/毫升表皮生长因子（EGF）和20纳克/毫升碱性成纤维细胞生长因子（bFGF, FGF2）进行增殖。
NPCs在聚-L-鸟氨酸包被的细胞培养皿上培养。
星形胶质细胞由NPCs衍生并在NPC培养基中添加4%胎牛血清（FBS）的情况下进行增殖。

Method Details

方法详情

Tumor acquisition and single-cell sorting

肿瘤获取与单细胞分选

Para_01

新鲜肿瘤直接从手术室收集，并通过冷冻切片确认胶质母细胞瘤的存在。
使用木瓜蛋白酶为基础的脑肿瘤分离试剂盒（Miltenyi Biotec）进行机械和酶解离，此前已有报道。
肿瘤细胞用含1%牛血清白蛋白的汉克斯平衡盐溶液（BSA / HBSS）阻断。
肿瘤首先用CD45-Vioblue直接抗体偶联物（克隆REA747，Miltenyi Biotec）在4°C下染色30分钟。
细胞用冷PBS洗涤，然后悬浮在含1微摩尔calcein AM（Life Technologies）和0.33微摩尔TO-PRO-3碘化物（Life Technologies）的1毫升BSA / HBSS中，共同染色30分钟，随后进行分选。
对于MGH143样本，使用CD45 MicroBeads（Miltenyi Biotec）去除免疫细胞。
CD45阴性细胞用calcein AM（Life Technologies）标记存活状态，并用CD24-APC（人抗体，克隆REA832，Miltenyi Biotec）和CD44-VioBlue（人抗体，克隆REA690，Miltenyi Biotec）进行染色，以分选可行的非免疫细胞亚群。
分选使用FACS Aria Fusion特制系统（Becton Dickinson）完成，采用488纳米（calcein AM，530/30滤光器）、640纳米（TO-PRO-3或CD24-APC，670/14滤光器）和405纳米（CD45-VioBlue或CD44-VioBlue，450/50滤光器）激光。
使用标准、严格的前向散射高度与面积标准来区分双倍体细胞，仅选择单个细胞进行分析。
可存活的单个细胞被确定为calcein AM阳性且TO-PRO-3阴性。
我们将单独的、可存活的、免疫的和非免疫的单个细胞分别分选到含有TCL缓冲液（QIAGEN）和1%β-巯基乙醇的96孔板中。
分选后立即将板放在干冰上冷冻，并在进行全转录组扩增、文库制备和测序前储存在-80°C。
对于在10x基因组学平台上处理的样本，使用Dead Cell Removal Kit（Miltenyi Biotec）从单细胞悬浮液中去除死细胞

RNA in situ hybridization

RNA原位杂交

Para_01

根据机构审查委员会批准的协议，从马萨诸塞州总医院和波士顿儿童医院获取了肿瘤的石蜡包埋组织切片。
将切片安装在玻璃载玻片上，并储存在-80°C下。
使用RNAscope 2.5 HD Duplex检测试剂盒（Advanced Cell Technologies，目录号322430）对载玻片进行染色，具体方法如先前所述。
简而言之，载玻片在60°C下烘焙1小时，然后用二甲苯和乙醇进行脱蜡和脱水。
组织在室温下用RNAscope过氧化氢处理10分钟，在98°C下用RNAscope靶标检索试剂处理15分钟。
之后，将RNAscope蛋白酶Plus（目录号322331）在40°C下应用于组织30分钟。
通过将C2探针（红色）稀释到C1探针（绿色）中1:50来制备杂交探针。
使用的Advanced Cell Technologies RNAscope靶标探针包括Hs-CD24（目录号313021；313021-C2），Hs-CD44（目录号311271-C2），Hs-PDGFRA（目录号604481-C2），Hs-S100B（目录号430891），Hs-MKI67（目录号591771；591771-C2）。
将探针加入到组织中并在40°C下杂交2小时。
使用RNAscope 2.5 HD Duplex检测试剂盒提供的说明书和试剂进行了10步放大程序。
组织在室温下用Gill’s苏木精复染25秒，随后用VectaMount封固介质（Vector Laboratories）进行封固。
对于ISH定量，至少在肿瘤代表区域计数了1000个细胞。

Intracranial patient-derived xenografts

颅内患者来源的异种移植瘤

Para_01

从人类胶质母细胞瘤手术时直接分离的新鲜肿瘤细胞被立体定向注射到5至12周龄的雌性NSG小鼠（NOD.Cg-Prkdcscid Il2rgtm1Wjl/SzJ, 杰克逊实验室, 缅因州巴港）的右侧纹状体。
简而言之, 小鼠用2%异氟烷与医用空气混合麻醉后置于立体定位框架上。
通过一个小皮肤切口暴露小鼠的颅骨，并使用25号针头在选定的立体定位坐标处钻一个小孔。
将悬浮于6微升PBS中的细胞装入33号汉密尔顿注射器中，并根据以下坐标缓慢注入：位于顶点骨2.0毫米侧方，皮质表面下2毫米。
注射完成后，针头保持原位一分钟，然后缓慢抽出，以帮助减少细胞回流。
缝合和固定头皮后，小鼠放回笼子置于加热垫上，并视觉监测直至完全恢复。
之后每天检查小鼠是否有痛苦迹象，包括抽搐、共济失调、体重下降和震颤。
通过小型动物MRI进行监测，首次是在注射后8周，再次则是在小鼠开始出现神经症状时，如头部倾斜、抽搐、突然体重下降、失去平衡和共济失调。
一旦小鼠出现症状，就立即进行安乐死，安乐死后立即收集脑组织，患者来源的异种移植瘤（PDX）同一天进行单细胞分选处理，采用与人原发肿瘤相同的协议。
所有动物实验均按照达纳-法伯/哈佛癌症中心机构以及索尔克研究所动物护理和使用委员会（IACUC）批准的方案进行。

Small animal MRI

小型动物磁共振成像

Para_01

MRI实验是在布鲁克BioSpec 7T/30厘米USR水平孔超导磁体系统（布鲁克公司，比勒里卡，马萨诸塞州）上进行的，该系统配备B-GA12S2梯度线圈和最高至二阶的室温匀场系统，可提供最大梯度幅度440毫特斯拉/米和切换率3440特斯拉/米/秒。
布鲁克制造的23毫米内径鸟笼型体积射频（RF）线圈用于射频激发和接收。
布鲁克AutoPac带有激光定位系统用于精确定义感兴趣区域。
动物使用1.5%异氟烷与医用空气混合麻醉，流速为每分钟2升。
使用暖风风扇将体温保持在37°C。
腹部放置压力传感器用于呼吸门控。
动物的呼吸和体温由SAII（萨仪器公司，石溪，纽约州）监测和门控系统型号1025T监控并调节。
使用布鲁克Paravision 6.0.1软件获取MRI数据。
通过快速自旋回波（RARE）序列结合脂肪抑制技术获得T2加权图像，参数设置如下：重复时间（TR）为6000毫秒，回波时间（TE）为36毫秒，视野（FOV）为19.2×19.2毫米²，矩阵大小为256×192，空间分辨率75×100微米²，切片厚度0.5毫米，切片数量29，RARE因子15，平均次数8次，采集时间7分钟。
使用半自动分割分析软件ClinicalVolumes（ClinicalVolumes，伦敦，英国）对图像进行分析并提取肿瘤体积。

Barcoded lentiviral vector design, construction, and production

条形码慢病毒载体的设计、构建与生产

Para_01

一个包含16×N混合碱基（估计多样性超过4×10^9）及常用引物序列的393碱基对DNA片段被综合，这些序列用于高效的扩增（CAT-R Fw / LucN Rv / pBABE5′ / EF1a Fw），由Integrated DNA Technologies合成。
该DNA片段通过聚合酶链反应（PCR）进行扩增，限制循环次数为20次以减少扩增过程中可能引入的偏差，使用Q5高保真聚合酶（New England Biolabs）以及含有CAT-R Fw或EF1a Fw序列和与慢病毒载体有25bp重叠序列的引物进行扩增，用于吉布森组装反应。
扩增后的PCR产物通过琼脂糖凝胶电泳确认并提取，使用QIAquick凝胶提取试剂盒（QIAGEN），然后再次使用QIAquick PCR纯化试剂盒（QIAGEN）进行纯化，并通过吉布森组装方法（New England Biolabs）克隆到HrasV12-IRES-GFP-shp53（Friedmann-Morvinski等人，2012年）或仅含GFP并用EcoRI（New England Biolabs）消化的载体中。
EcoRI位点位于GFP编码区域之后和土拨鼠肝炎病毒后转录调控元件（WPRE）之后，以及含病毒多聚腺苷酸化信号的3′长末端重复序列（LTR）之前。
组装后的载体使用Endura电转化细胞（Lucigen）在LB琼脂平板上放大，限制时间为12至14小时以减少菌落竞争可能引入的偏差，并使用PureLink HiPure Maxiprep试剂盒（Thermo Fisher Scientific）进行纯化。
含有16个混合碱基的慢病毒载体通过桑格测序验证了相应的条形码区域。
使用Lipofectamine 2000（Thermo Fisher Scientific）为基础的转染技术，在293T细胞（每15厘米板5×10^6个细胞，共20块板）中与转移质粒、包装质粒（GAG/POL，RSV-Rev）及包膜质粒（VSV-G）共同转染产生假型化的第三代慢病毒。
转染时和更换培养基时向培养基中加入2 μM丁酸钠以增加病毒产量。
转染效率基于荧光表达进行评估。
转染后48和72小时收集上清液，并通过超速离心浓缩慢病毒。
慢病毒的生物滴度根据293T细胞上的荧光表达进行评估。

Intracranial injection of barcoded lentivirus

条形码标记的慢病毒的颅内注射

Para_01

慢病毒通过立体定位技术被注射到6至16周龄的hGFAP-cre小鼠的海马区（杰克逊实验室，缅因州巴港）。所有小鼠都在索尔克研究所的无病原体条件下饲养，并且所有操作均得到了机构动物护理和使用委员会的批准。
慢病毒（1×10^5感染单位）悬浮于1微升PBS中，并装入33号规格的汉密尔顿注射器中，然后缓慢注射（每30秒至1分钟注射0.1微升），坐标如下：相对于前囟点，后方2.0毫米、侧边1.5毫米、背侧2.3毫米。
完成注射后，针头留在原地3分钟，然后缓慢拔出，以帮助减少2分钟内的病毒回流。

In vitro labeling of patient derived cells with barcoded lentiviruses

使用条形码慢病毒对患者来源的细胞进行体外标记

Para_02

患者来源细胞（MGH143、MGG23）在含有条形码的慢病毒稀释液中孵育12小时，孵育介质为神经基质培养基（GIBCO 21103-049），补充了1X N2/B27（GIBCO）、1%青霉素/链霉素（GIBCO）、1X Glutamax（GIBCO）、20 ng/mL 表皮生长因子和20 ng/mL碱性成纤维细胞生长因子（FGF2）。
条形码标记的细胞用PBS洗涤三次，然后用预热的TrypLE Express（GIBCO）解离，制备单细胞悬液（每只小鼠使用2x10^4-1x105个细胞）以进行颅内注射。
剩余细胞继续培养48小时，通过流式细胞术分析来评估绿色荧光蛋白表达及慢病毒感染效率。

Fluorescence-activated cell sorting of GFP positive mouse and human GBM cells

利用荧光激活的细胞分选对绿色荧光蛋白阳性的小鼠和人胶质母细胞瘤细胞进行分选

Para_02

所有小鼠在安乐死后均用冰冷的PBS灌注。
收集到的大脑组织使用含木瓜蛋白酶的大脑肿瘤分离试剂盒（Miltenyi Biotec）进行机械和酶解离，并补充了0.1%的I型胶原酶（Thermo Fisher Scientific）/PBS。
细胞首先用钙黄绿素蓝AM（Life Technologies）和Zombie NIR（BioLegend）染色30分钟，在4°C下进行，并用抗小鼠CD16/32（BD Biosciences）染色5分钟。
用冰冷的2%胎牛血清/PBS洗涤细胞后，再用抗小鼠CD45-PerCP（克隆30-F11，BD Biosciences）染色30分钟，在4°C下进行。
使用Becton Dickinson Influx流式细胞仪（Becton Dickinson）进行分选，激光波长分别为640 nm（Zombie NIR，750LP滤光片）、355 nm（钙黄绿素蓝AM，460/50滤光片）、488 nm（CD45-PerCP，692/40滤光片）和488 nm（GFP，530/40滤光片）。
使用侧向散射（SSC）宽度与前向散射（FSC）面积，以及触发脉冲宽度与FSC的标准来区分双倍体细胞，仅对单细胞进行门控。
存活的单细胞被鉴定为钙黄绿素蓝AM阳性且Zombie NIR阴性。
我们将存活的、CD45阴性/GFP阳性的单细胞分选到含有5微升TCL缓冲液（QIAGEN）及1%β-巯基乙醇的96孔板中。
分选后立即将孔板冷冻，并在-80°C储存，直至进行全转录组扩增、文库制备和测序。

In vitro overexpression experiments

体外过表达实验

Para_02

利用已发表的协议从小鼠胚胎干细胞（V6.5）中建立了NPCs（Kerman等人，2015年）。
NPCs使用含DMEM:F12（GIBCO 11320-033，含L-谷氨酰胺/碳酸氢钠）的培养基进行扩增，该培养基补充了1X N2/B27、1%青霉素/链霉素、1 μg/mL层粘连蛋白（来源于EHS肿瘤）、20 ng/mL表皮生长因子和20 ng/mL碱性成纤维细胞生长因子（FGF2）。
NPCs在聚-L-鸟氨酸包被的细胞培养皿上进行培养。
星形胶质细胞从NPCs中衍生并使用补充了4%胎牛血清（FBS）的NPC培养基进行扩增。
使用的构建体包括：含有CMV启动子驱动T2A-eGFP表达的空载体、人EGFR-T2A-eGFP或小鼠CDK4-T2A-eGFP。
所有构建体通过Sanger测序以及全质粒下一代测序进行了验证。
在96孔板中（每孔2,000个细胞）使用ATPlite按照制造商的说明测量细胞增殖。
细胞在铺板后1小时（第0天）、第2天和第4天裂解。
定量结果归一化至第0天的数据

Imaging of GFAP positive cells in mouse NPC cultures

在小鼠NPC培养中GFAP阳性细胞的成像

Para_02

将表达eGFP、EGFR或CDK4的NPCs以每孔80,000个细胞的密度接种于8孔玻璃载玻片(BD生物科学)上。
使用4%甲醛固定细胞，然后在4°C下用0.5% Triton X-100透化10分钟。
使用含10%正常山羊血清的PBS阻断，随后用GFAP抗体(Dako, Z0334)以1:2500的比例稀释过夜染色。
然后用PBS洗涤细胞，并用与Alexa-555偶联的山羊抗兔二抗(在封闭缓冲液中的稀释比例为1:500)进行染色。
用Hoechst 33342(PBS中的稀释比例为1:10,000)对细胞核进行染色。
载玻片随后用Vectashield封固介质封固，并在Zeiss LSM 800共聚焦显微镜下成像。
然后在ImageJ软件中组装最大强度图像。
接着利用ImageJ软件中的Find Maxima工具，在设定噪声容限以排除背景阳性信号的情况下计数GFAP阳性的细胞

Quantification and Statistical Analysis

量化与统计分析

Single-cell RNA-seq data generation and processing

单细胞RNA-seq数据生成与处理

Para_01

Smart-seq2全转录组扩增、文库构建和测序按照先前发表的方法进行(Filbin等人, 2018年; Picelli等人, 2014年; Tirosh等人, 2016年; Venteicher等人, 2017年)。
作为质量控制手段, 我们检查了每个细胞检测到的基因数目(补充图S1B)。
我们观察到了双峰分布, 并保守地排除了28%测序细胞, 这些细胞检测到的基因少于3,000个。
在剩余的细胞中, 我们平均每个细胞检测到5,730个基因, 这突出了我们的单细胞RNA测序数据集的高质量。
表达水平量化为Ei,j = log2(TPMi,j/10 + 1), 其中TPMi,j表示样本j中基因i的每百万转录本数, 由RSEM计算得出(Li和Dewey, 2011年)。
由于我们估计单细胞文库的复杂度约为100,000个转录本, 为了避免每个转录本大约被计数10次的情况, TPM值除以10。
对于剩余细胞, 我们计算每个基因的汇总表达量为Ea(i) = log2(平均值(TPMi,1...n) + 1), 并定义分析基因集合为Ea大于4的基因。
然后, 我们通过将每个基因的表达水平归零, 定义相对于剩余细胞和分析基因的相对表达量, 即Eri,j = Ei,j - 平均值[Ei,1...n]。
对于一部分样本, 单细胞通过10X Chromium 3′单细胞平台处理, 使用Chromium单细胞3′文库、凝胶珠和芯片试剂盒(10X Genomics, 加利福尼亚州普莱森顿), 遵循制造商的协议。
简而言之, 在芯片的每个通道中加入7,000个细胞, 在Chromium仪器中将它们分隔成凝胶珠在乳液(GEMs)中, 接着进行细胞裂解和条形码标记的RNA逆转录。
乳液破裂后, 进行扩增、打断以及添加接头和样品索引。

tSNE analysis and identification of non-malignant cell types

tSNE分析及非恶性细胞类型的鉴定

Para_01

使用相对表达值并通过tSNE对所有通过质量控制的细胞进行分类，采用MATLAB实现的tsne，默认参数（图1B）。
出现了三个小的聚类，与三种非恶性细胞类型的标记物高表达相关。
因此，我们为这三种细胞类型定义了标记基因集，并通过它们的平均表达来给每个细胞打分。
对于巨噬细胞：CD14、AIF1、FCER1G、FCGR3A、TYROBP、CSF1R。
对于T细胞：CD2、CD3D、CD3E、CD3G。
对于少突胶质细胞：MBP、TF、PLP1、MAG、MOG、CLDN11。
当评分高于4时，将细胞归类为这些细胞类型之一。
第二次仅对恶性细胞进行tSNE分析，且"NumPCAComponents"设置为30（图1C）

Definition of single-cell gene signature scores

单细胞基因特征分数的定义

Para_01

给定一组基因 (Gj)，该组基因反映特定细胞类型或生物学功能的表达特征，我们为每个细胞 i 计算一个分数 SCj(i)，用以量化基因集 Gj 在细胞 i 中的相对表达水平，计算方式为 Gj 中各基因的平均相对表达量 (Er) 减去对照基因集 (Gjcont) 的平均相对表达量：SCj(i) = 平均[Er(Gj,i)] – 平均[Er(Gjcont,i)].
对照基因集的定义方法是首先将所有分析的基因按聚合表达水平 (Ea) 分成 30 个等级，然后对于基因集 Gj 中的每个基因，从相同表达等级中随机选择 100 个基因。
这样，对照基因集具有与 Gj 相似的表达水平分布，并且对照基因集的规模是 Gj 的 100 倍，因此其平均表达量类似于从与考虑中的基因集同样大小的 100 个随机选择的基因集中取平均。
通过这种方式，对照基因集具有与 Gj 类似的表达水平分布，而且它的规模比 Gj 大 100 倍，使其平均表达量相当于从 100 个与所考虑的基因集相同大小的随机选择的基因集中取平均。

CNA inference from single-cell data

从单细胞数据推断CNA

Para_01

通过按染色体位置对分析基因进行排序，并对相对表达值应用移动平均，使用每条染色体上100个基因的滑动窗口来估算CNAs，这与我们先前描述的方法一致。
被归类为非恶性细胞类型的细胞用于定义正常核型的基线，即从所有细胞中减去它们的平均CNA值。
然后，根据两个基于CNA的指标对每个细胞进行评分。
"CNA信号"反映了整个基因组CNAs的整体程度，定义为基因组中CNA值平方的均值。
"CNA相关性"指的是每个细胞的CNA谱与来自相应肿瘤的所有细胞（除通过基因表达分类为非恶性的细胞外）的平均CNA谱之间的相关性。
如果细胞的CNA信号超过0.02且CNA相关性超过0.4，则通过CNA分析将其分类为恶性细胞（图S1C）。

Integrated definition of malignant cells

恶性细胞的综合定义

Para_01

然后，我们将CNA分类与基于tSNE的分类和基于基因集的分类相结合，使得最终的恶性细胞列表包括那些根据CNA被分类为恶性的细胞、属于恶性tSNE聚类的细胞、以及根据标记基因集未被归类为任何非恶性细胞类型的细胞。
同样地，只有当这三种分析方法的分配一致时，细胞才会被归类为每种非恶性细胞类型。

Identification of intra-tumor variability programs using hierarchical clustering

使用层次聚类识别肿瘤内变异性的程序

Para_01

首先，我们分别对每个肿瘤中的单个恶性细胞进行了基于平均连接法的层次聚类，采用一减皮尔逊相关系数（针对所有分析基因）作为距离度量。
为了选择聚类而不预设严格的聚类数量或它们在层次树中的层级，我们首先恢复所有潜在的聚类，然后根据大小、差异表达信号以及与其他聚类的冗余性排除它们，具体方法如下：(1) 我们排除了包含少于5个细胞或超过相应肿瘤中恶性细胞总数80%的聚类。
(2) 对于每个聚类，我们估计了偏好表达基因的数量：我们确定了所有在该聚类中的平均表达量比在同一肿瘤中的其他恶性细胞高出三倍，并且相应的p值低于0.05（使用t检验并用Benjamini-Hochberg方法校正了假发现率）的基因。
接着，我们分别计算调整后p值低于0.05（Nsig1）和低于0.005（Nsig2）的显著基因数目。
所有Nsig1大于50且Nsig2大于10的聚类被定义为具有足够的差异表达信号，并保留用于进一步分析。
(3) 对于每一对Jaccard指数超过75%的聚类，我们排除了Nsig1较低的那个聚类。
将这种方法应用于27个肿瘤，发现了479个聚类，其中包括（正如所期望的那样）许多大型聚类及其较小的子聚类的情况。
最后，我们将差异表达基因（Nsig1）作为每个聚类的特征，从而得到了479个特征。

Integration of individual signatures into meta-modules

将个体签名整合到元模块中

Para_01

利用Jaccard指数反映各对特征签名之间的重叠程度，并采用平均连接法进行层次聚类。
识别出了四组特征签名，其中两组又稳健地分为两个子组（图3），最终得到六组特征签名，作为定义六个元模块的基础。
对于每组特征签名，我们基于对应的特征签名的平均表达log2比率来定义元模块：对于每个特征签名，通过比较对应潜在群集中的所有细胞与同一肿瘤中的其他恶性细胞，定义了表达log2比率。
然后将构成一个组（或子组）的所有特征签名的这些log2比率取平均值，在每种情况下，这些组至少包括六种不同的肿瘤。
每个元模块被定义为平均log2比率高于2的所有基因，并限制为该组程序中log2比率最高的50个基因。

Identification of cycling cells

循环细胞的识别

Para_01

还为细胞周期的G1/S和G2/M阶段定义了元模块，这是通过对与细胞周期相关的特征进行分析得出的。
接下来，利用这些元模块的细胞得分来将细胞分类为处于细胞周期中的或非细胞周期中的（图S3A和S3B）。
对于这两个细胞周期得分中的每一个，所有恶性细胞的得分分布被拟合到一个正态分布，并使用p值小于0.001的阈值来区分处于细胞周期中的细胞。

Assignment of cells to meta-modules and their hybrids

将细胞分配给元模块及其杂交体

Para_01

恶性细胞最初被分配到得分最高的元模块，包括六个元模块（MES1-like、MES2-like、NPC1-like、NPC2-like、AC-like、OPC-like），但不包括细胞周期元模块。
对于大多数分析，我们将MES1和MES2细胞群合并为一个MES-like细胞群，并且类似地，将NPC1和NPC2细胞合并为一个NPC-like细胞群。
接下来，我们根据三个标准定义了混合型细胞：(1) 第二个元模块的得分高于1；(2) 第二个元模块的得分高于映射到该元模块（作为其最高得分元模块）的细胞中的10%的得分；(3) 第二个元模块与第三个元模块之间的得分差至少为0.3。

Para_02

当我们使用不同的标准时，杂交体的百分比和模式基本没有变化。
对于每一对元模块（图 3D），通过打乱每个肿瘤中细胞的元模块得分来定义一个"预期数量"的杂交体。
每个元模块独立被打乱，这样就消除了元模块之间的任何关联，而得分的分布保持不变，肿瘤间的分布差异也保持不变。
这一打乱过程进行了100次，并且每次我们都会使用上述定义的标准来计算杂交体的数量。
然后，这些计数的平均值和标准差被用作预期杂交体数量的对照。

Identification of genetic subclones by inferred CNAs

通过推断的拷贝数异常识别遗传亚克隆

Para_01

在每个细胞中，我们定义了每个染色体或染色体臂推断出的平均CNA值。
接下来，我们检查了每个肿瘤中是否存在一个或多个染色体臂在恶性细胞中的CNA值呈双峰分布。
我们使用MATLAB的fitgmdist函数将CNA值拟合到双峰高斯分布，并检查了细胞属于两种模式的后验概率。
在大多数肿瘤和对于大多数染色体臂来说，两种模式非常相似，细胞无法被自信地分配到不同的模式中。
然而，在特定情况下（特定肿瘤中的特定染色体臂），两种模式差异显著，以至于大多数细胞可以被自信地分配到其中一种模式。
在这些情况下，当一个肿瘤中有超过80%的恶性细胞对两种模式之一的后验概率高于0.95，并且至少有10个细胞被分配给两种模式时，我们定义了亚克隆。
那些无法自信地被分配到任一模式的少数细胞被排除在亚克隆分析之外。
如果一个肿瘤只有一个染色体（或染色体臂）具有双峰分布，我们定义了两个克隆，对应于两种模式。
如果一个肿瘤有多个这样的染色体，则我们将所有组合的模式（至少包含三个细胞）视为亚克隆

Characterization of meta-modules by comparison to external data

通过与外部数据比较来表征元模块

Para_01

我们通过四种互补的方法来表征这些元模块。
首先，通过每个元模块中非恶性细胞类型的相对表达分数（图2）。
为此，我们从多个来源获得了非恶性脑细胞的单细胞RNA测序数据（Darmanis等人, 2015年, Nowakowski等人, 2017年, Pollen等人, 2015年, Tirosh等人, 2016b年）。
对于每个来源，我们根据细胞类型分类汇总细胞，定义每种细胞类型的平均表达谱（或使用原始研究产生的相应数据），最后通过减去所有细胞类型的平均表达量来定义细胞类型的相对表达。
第二，通过发育中的人类皮层中的47种非恶性细胞类型与随机抽取的250个胶质母细胞瘤细胞映射到每个元模块的平均表达谱之间的全局表达相似性（皮尔逊相关系数）（图S2F）。
第三，通过非恶性细胞类型中元模块基因的富集情况（图S2F）（Nowakowski等人, 2017年）。
富集程度被定义为给定细胞类型中最高度表达的元模块基因的比例的显著水平（-对数10(P值)），并通过超几何检验计算。
类似地，我们使用R中的clusterProfiler::enricher函数测试了这些元模块在MSigDB中的C2和C5基因集合（总数10,679个基因）中的富集情况（图S2E）。

Two-dimensional representation of malignant cellular states

恶性细胞状态的二维表示

Para_01

细胞首先根据D = max(SCopc,SCnpc) - max(SCac,SCmes)的符号被分为OPC/NPC与AC/MES，其中D定义了所有细胞的y轴。
接下来，对于OPC/NPC细胞（即，D > 0），x轴值被定义为log2(|SCopc – SCnpc|+1)，而对于AC/MES细胞（即，D < 0），x轴被定义为log2(|SCac – SCmes|)。
为了可视化两个维度表示中的细胞子集（例如，增殖细胞）的富集情况，我们计算了每个细胞在其100个最近邻中的属于相应子集的细胞比例，这些最近邻由欧几里得距离定义，并通过颜色显示这些比例。

Bulk scores defined for TCGA samples

为TCGA样本定义的大规模得分

Para_01

TCGA样本的表达数据基于Agilent微阵列平台，因为该平台具有最多的样本数量。
对元模块的大批量样本进行表达评分，方法如上所述针对单细胞所进行的一样，但有两个例外。
（1）大样本中基因的表达反映了多种表达细胞类型的综合效应，因此，在单细胞数据中是特定细胞状态良好标记的许多基因，在大样本数据中可能不是良好的标记。
为了排除这类基因，我们首先通过元模块平均表达定义初始大样本得分。
接着，我们计算了每个元模块基因与初始得分的相关性。
如果基因的相关性低于0.4或相关性更高的情况出现在不同的元模块中，则排除这些基因。
然后使用剩余的基因来定义改进后的大样本得分。
（2）那些不属于元模块但被发现与元模块高频率相关联的基因（补充图S5D和S5E）也被纳入到这个分析中。

Association of bulk scores with CNAs

体细胞分数与拷贝数异常的关联

Para_01

染色体拷贝数丢失、获得以及高水平扩增数据来源于TCGA（Brennan等人，2013年）。
对于每个基因，如果至少有10个肿瘤样本具有特定的染色体异常模式（获得、丢失或高水平扩增），则使用t检验比较所有具有该模式和没有该模式的肿瘤样本的总分。
图5B和补充图S5G显示了与-log10(P)对应的显著性值，其中P是t检验的概率值，对于文中提到的所有遗传事件（EGFR、PDGFRA和CDK4扩增及5号染色体q臂缺失）而言，这些值均大于5。
我们进一步检查了在每个元模块得分最高的肿瘤子集中每个事件的发生率（包括NF1下调），排除了所有得分低于1的肿瘤样本，并发现了每个正相关事件的显著富集（超几何检验p值小于0.001）（补充图S5F）。

Assignment of TCGA subtypes to tumors profiled by scRNA-seq

将TCGA亚型分配给通过单细胞RNA测序描绘的肿瘤

Para_01

我们模拟了每个肿瘤的整体表达水平，表示为 Ei,J = log2(TPMi,J+1)，其中 J 指该肿瘤中的所有恶性细胞。
得到的整体表达谱随后根据三种 TCGA 亚型进行评分，并被分配到得分最高的亚型或如果第一和第二亚型之间的得分差异小于 0.05，则被分配到"混合"类别。

Integration of the 10X Genomics data

10X Genomics数据的整合

Para_01

对由10x Genomics平台生成的第二个数据集进行了处理和分析，处理方式与上述SMART-Seq2数据相同，但有以下例外：预处理：(i) 由于不同肿瘤之间检测到的基因数量差异较大，与SMART-Seq2数据相比，我们排除了所有检测到的基因数少于该肿瘤平均基因数一半或多于两倍的所有测序细胞（占所有测序细胞的26％）。(ii) 非恶性细胞识别：通过一种或两种方法识别非恶性细胞。(1) 我们定义了正常细胞类型的标记基因集（参见前面的STAR方法部分），并对所有细胞的每种特征的平均表达量进行评分。巨噬细胞和少突胶质细胞的评分呈现双峰分布。因此，选择大于等于0.5和大于等于3的阈值来界定非恶性细胞。(2) 所有细胞采用平均链接法进行层次聚类，使用配对皮尔逊相关系数作为距离度量。识别出三个大聚类，其中一个聚类与高表达非恶性细胞标志物（特别是巨噬细胞）相关联。该聚类中的100％细胞被第一种方法捕获。总体上，通过两种方法定义的非癌细胞占通过质量控制的细胞总数的40％。(iii) 基因特征生成：我们分析了来自9个肿瘤的9,870个癌细胞，以识别我们数据中差异基因表达的一致性特征。定义了577个特征，并通过成对的Jaccard重叠进行比较，如前所述。重叠的层次聚类揭示了一个强烈的细胞周期特征元模块。剩下的78％的非细胞周期特征与SMART-Seq2平台产生的特征进行了比较（并在正文讨论）

Comparison of 10x and SMART-Seq2 results

Para_02

从10x数据中获得的448个非周期性特征依据平均连接层次聚类，并使用特征间的Jaccard重叠作为距离度量。
随后，根据对应聚类中的细胞表达与同一肿瘤中所有其他恶性细胞相比，对聚类后的特征与正文中的六个元模块（NPC1、NPC2、OPC、AC、MES1和MES2）的对应关系进行评分，评分定义如上文所述（参见单细胞基因特征评分定义）。

Analysis of barcoded cells

条形码细胞的分析

Para_01

本研究中使用的条形码包括独特的（即，可变的）16核苷酸序列，这些序列可以通过两个常见的29核苷酸侧翼序列来识别（参见STAR方法部分）。
为了将细胞分配给条形码，我们首先在单细胞RNA测序读段中搜索侧翼序列以定位条形码序列。
如果在一个细胞中计数至少三次，或者比任何其他条形码多计数至少三倍，则将条形码分配给该细胞。
未分配条形码的细胞被排除在下游分析之外。
接下来，检测到条形码的细胞如果得分最高且得分至少为1分，并且与次高得分之间的差距至少为0.5分，则被分配到相应的元模块（有关单细胞得分定义，请参见上文）。
根据这些标准未分配到元模块的细胞也被排除。
在保留的细胞中，53%和78%属于至少包含两个细胞的条形码群体（图7C和7D以及图7E和7F分别所示）。

Data and Code Availability

数据和代码的可获得性

Para_01

为本研究生成的数据可通过博德研究所单细胞门户获取。(https://portals.broadinstitute.org/single_cell/study/SCP393/single-cell-rna-seq-of-adult-and-pediatric-glioblastoma) 以及基因表达聚类数据库 (GEO: GSE131928)。
支持当前研究的代码可应要求从相应作者处获得。

本文由mdnice多平台发布