单细胞转录组探索头颈癌症的转移癌和原位癌区别
文章发表于2017年12月,在CELL杂志:Single-Cell Transcriptomic Analysis of Primary and Metastatic Tumor Ecosystems in Head and Neck Cancer 测序如下;
We profiled transcriptomes of ∼6,000 single cells from 18 head and neck squamous cell carcinoma (HNSCC) patients, including five matched pairs of primary tumors and lymph node metastases.
同时也对这些病人测了whole-exome sequencing (WES) and targeted genotyping (SNaPshot) data,但是这些数据公布在 phs001474.v1.p1
,不是很方便下载。
单细胞转录组建库用的Smart-seq2
方法,所有的数据公布在 GSE103322 , 仅仅是表达矩阵都有近100Mb了。
GSE103322_HNSCC_all_data.txt.gz | 86.0 Mb |
实验验证用的是细胞系 Oral cavity HNSCC cell lines (Cal-27, SCC9, SCC4, SCC25, and JHU-006; all derived from male patients) 做了RNA-seq 数据。
肿瘤内异质性是肿瘤学的主要挑战。在新兴的技术中,scRNA-seq有助于确定与肿瘤生物学,诊断和治疗有关的发育等级,抗药性程序和免疫渗透模式。在这里,研究者应用这种方法来表征原发性HNSCC肿瘤和匹配的LN转移瘤。
名词介绍
-
头颈部鳞状细胞癌(HNSCC)
-
淋巴结转移(LN)
-
癌症基因组图谱(TCGA)
-
癌相关成纤维细胞(CAF)
-
细胞外基质(ECM)
-
循环肿瘤细胞(CTC)
-
单细胞RNA测序(scRNAseq)
-
肿瘤微环境(TME)
-
全外显子组测序(WES)和靶向基因分型(SNaPshot)
-
Epithelial-to-mesenchymal transition (EMT)
-
PNI = perineural invasion; LVI = lymphovascular invasion; ECE = extracapsular extension
背景介绍
HNSCC 头颈癌是最常见的十大癌症之一,每年有50万患者深受其害,其中,超过80%的患者为口腔鳞状细胞癌(OSCC)。尽管目前有手术、化疗、放疗等治疗手段,但5年存活率仅有50%,仍是存活率最低的癌症之一,且近30年没有改善。所以探寻新的治疗方式抑制OSCC生长和转移尤为重要。
头颈部鳞状细胞癌(HNSCC)是一种与酒精和烟草暴露密切相关的具有异质性的上皮肿瘤,患者往往在晚期出现的淋巴结转移(LN)。
单细胞转录组数据分析CNV跟WES的对比
首先把所有病人的近6000个细胞根据表达模式区分成恶性与否,分成两组进行CNV聚类,可以看到恶性细胞的CNV模式跟从WES数据分析得到的CNV模式比较类似,说明了单细胞转录组数据分析CNV是靠谱的。当然,本身该课题组前面的几篇文章就提到了这个方法以及证实了其可靠性。
image病人MEEI5的CNV情况
MEEI5 是一个69岁的女性,对来源于她的所有单细胞的转录组数据分析得到的CNV信息进行聚类可以看到比较清晰的patter,其中恶性与否比较容易区分,而且对于恶性细胞也可以看出原位癌和转移癌的区别。
image首先区分肿瘤细胞的恶性与否
用Smart-seq2
建库方法得到的单细胞转录组数据经过QC后,留下了来自18名患者的5,902个细胞,首先可以分成2215个恶性细胞和3363个非恶性细胞。
首先,研究者根据跨染色体间隔的平均表达谱推断每个单细胞中的大规模染色体拷贝数变异(CNV)。这些推断的CNVs与WES一致,通过推断的CNVs将恶性细胞从正常核型的非恶性细胞中分离出来。
其次,研究者通过其上皮来源鉴别恶性细胞,其不同于TME中的基质和免疫细胞。研究者发现在具有上皮标志物表达的细胞和具有异常核型的细胞之间具有显著的一致性。
最后,研究者通过它们的全局表达模式将细胞划分到初始类。基于CNV和上皮标志物分析,绝大多数细胞均被分到具有一致恶性或非恶性分类类中去。
非恶性细胞的聚类没有个体差异
如果只对已经被区分出来的三千多个非恶性肿瘤细胞
进行聚类,采取SC3算法,效果如下图,虽然有14个类别,但是根据已知标记基因的表达,可以注释为B细胞,巨噬细胞,树突状细胞,肥大细胞,内皮细胞,成纤维细胞和肌细胞这八个值得探究的类别。
值得注意的是,每个类含有来自不同患者的细胞,表明TME(这三千多个非恶性细胞就是肿瘤微环境)中的细胞类型和表达状态在HNSCC肿瘤中基本一致,并且没有患者特异性亚群或批处理效应,尽管它们的比例是不同的。
image而且由于研究者的数据集中T细胞和成纤维细胞,即数量相对较多,研究者通过更精确的聚类发现了T细胞和成纤维细胞的多样性。如下:
单独查看成纤维细胞CAF
rv1,500成纤维细胞分成两个大类,一个小类别。
- 第一个类表达肌成纤维细胞的经典标记,包括α平滑肌肌动蛋白(ACTA2)和肌球蛋白轻链蛋白(MYLK,MYL9)。肌成纤维细胞是TME的成熟组分,并与伤口愈合和挛缩有关。
- 第二个类表达与癌相关成纤维细胞(CAF)相关的受体,配体和细胞外基质(ECM)基因,包括成纤维细胞活化蛋白(FAP),podoplanin(PDPN)和结缔组织生长因子(CTGF)。
- 第三个类基本不包括肌成纤维细胞和CAF的标记物,并可能代表处于静止状态的成纤维细胞。
其中还可以把CAFs(第二个类)分为具有立即早期应答基因(例如JUN,FOS),间充质标志物(例如VIM,THY1),配体和受体(例如FGF7)差异表达的两种类型(CAF1和CAF2),TGFBR2 / 3)和ECM蛋白质(例如MMP11,CAV1)。这种瘤内CAF异质性与TMF中涉及复杂结构和旁分泌相互作用的观点一致。
单独查看T细胞
主要T细胞类(rv1000个T细胞)可以分为四个亚群,研究者注释为
- 调节性T细胞(Treg)
- 常规CD4 + T辅助细胞(CD4 + Tconv)
- 两种细胞毒性CD8 + T细胞群(CD8 + T和CD8 + Texhausted)
细胞毒素亚型在共抑制性受体(例如PD1,CTLA4)和与T细胞功能障碍和衰竭相关的其他基因的表达方面不同,并由此定义HNSCC中推定的T细胞耗竭程序。耗竭CD8 + T细胞的部分在研究者的队列患者中显著变化。这些T细胞表达状态可以为理解和预测检查点免疫疗法的反应提供帮助。
恶性细胞聚类完全取决于患者个体
与非恶性细胞相比,2215恶性细胞根据其起源的肿瘤聚类。超过2000个基因优先在个体肿瘤中表达。
image差异表达的基因在肿瘤之间不同的CNV内富集。
最后,其他差异表达的基因与应激(例如JUNB,FOSL1)或免疫激活(例如IDO1,STAT1,TNF)有关,可能对不同的TME有反应。因此,肿瘤间恶性细胞表达异质性反映了研究者队列中肿瘤之间遗传学,亚型和TME的差异。
恶性细胞的基因特征
这里重点分析那些含有恶性细胞转录组最多数量的10对肿瘤样本。比如下面的病人MEEI25,一个76岁的女性:
image研究者使用非负矩阵分解来揭示在恶性细胞亚群中得到优先共同表达的一系列基因。例如,对于MEEI25恶性细胞,研究者定义了6个不同的基因特征。对10个肿瘤样本中的每一个都应用该方法,共定义了60个基因特征。
接下来,研究者使用层次聚类来将这些60个特征提取成元特征,这些元特征反映了在多个肿瘤内变化的常见表达程序。来自不同肿瘤的特征之间的高一致性表明它们反映了肿瘤内表达异质性的共同模式。
LN转移与原发性肿瘤比较
研究者将LN转移与原发性肿瘤(只有5个病人是取了配对样本)进行了比较。尽管WES和推测的CNV显示了原发性和匹配的LN样本之间的存在一些基因组差异,但是可能是由于所研究的个体数量较少,他们没有鉴别出任何一致的区别。
imageLN中恶性细胞的表达谱也与相应的原发肿瘤大致匹配。在每个配对样本中,都有较少的差异表达基因是显著差异的,但是它们在整个群体(cohort)中不一致。
image研究者还观察到淋巴结和原发性肿瘤间质和免疫细胞的特征和表现的总体一致性,虽然有一些重要的区别!
EMT的部分状态或p-EMT
EMT程序被广泛认为是耐药,侵袭和转移的潜在驱动因素,是一个连续和变化的过程。因此,研究者仔细检查了ECM计划中EMT的特征。除ECM基因如基质金属蛋白酶,层粘连蛋白和整联蛋白外,该程序还包括EMT标志物波形蛋白(VIM)和整联蛋白α-5(ITGA5)。此外,该方案中得分最高的基因之一是转化生长因子(TGF)-b诱导(TGFBI),暗示经典的EMT调节剂TGF-b。
虽然该程序具有经典EMT的关键特征,但缺乏其他标志。
首先,虽然特征伴随着某些上皮基因的表达降低,但是上皮标记物的总体表达还是明显地保持下来。
image其次,研究者没有检测到经典EMT TF,ZEB1 / 2,TWIST1 / 2和SNAIL1的表达。只有SNAIL2被检测到(在70%的HNSCC细胞中),尽管其表达与肿瘤的程序相关,但与肿瘤内个体细胞的程序并不相关。最近的研究表明SNAIL2比其他EMT TFs早。 SNAIL2也涉及伤口愈合中的p-EMT应答。
image因此,研究者建议这里确定的体内程序反映了一个EMT的部分状态或p-EMT。
image上图的分析结果表明,这个p-EMT程序不同于源自细胞系和肿瘤模型的完整EMT程序,以及源自肿瘤的肿瘤谱间充质特征。
把TCGA的分类应用于scRNA-seq数据
TCGA研究分析了数百个HNSCC肿瘤的表达谱,并将它们分为四个亚型:基础型,间充质型,经典型和非典型型。在TCGA的cohort里面各个类别的样本比例是:atypical(24%),mesenchymal(27%),basal(31%)和classical(18%)。尽管TCGA分型是从大量肿瘤细胞中获取的,但研究者推断单个细胞组分的表达程序可能使研究者能够提取更多的了解。具体而言,研究者从这些批量数据中定义的分子亚型判断是否能够反映恶性程序,恶性细胞组成和/或TME组成的差异。
研究者首先确定了自己研究计划的十个HNSCC肿瘤病人的TCGA表达亚型。
image研究者评估了每个肿瘤的恶性细胞与其亚型表达特征的对应关系。引人注目的是,每个肿瘤清楚地映射到三个亚型之一:基本型(n = 7),经典型(n = 2),或非典型(n = 1)。没有一个恶性细胞映射到间充质亚型,即使它是口腔肿瘤中第二常见的亚型。然而,当研究者增大分析样本数目,当样本中包括基质和免疫细胞时,发现数百CAFs、肌成纤维细胞和肌细胞映射到间充质亚型。
image这一发现提出了一种可能性,即TCGA间充质亚型反映大批量样品中的高基质表现而不是独特的恶性细胞程序。实际上,TCGA样品的分析鉴定到间充质亚型肿瘤高度表达对CAF和肌细胞特异性的基因。此外,当研究者检查TCGA的HNSCC肿瘤的组织学切片时,鉴定到间充质肿瘤的成纤维细胞比基础型肿瘤多大约2.7倍(t检验,p <0.0001)。
外显子数据分析somatic突变
因为外显子测序数据是无法下载的,这里就不过多介绍了。
image(文章转自jimmy的2018年阅读文献笔记)
生信基础知识大全系列:生信基础知识100讲
史上最强的生信自学环境准备课来啦!! 7次改版,11节课程,14K的讲稿,30个夜晚打磨,100页PPT的课程。
如果需要组装自己的服务器;代办生物信息学服务器
如果需要帮忙下载海外数据(GEO/TCGA/GTEx等等),点我?
如果需要线下辅导及培训,看招学徒
如果需要个人电脑:个人计算机推荐
如果需要置办生物信息学书籍,看:生信人必备书单
如果需要实习岗位:实习职位发布
如果需要售后:点我
如果需要入门资料大全:点我
网友评论