In-depth proteomic analysis reveals unique subtype-specific signatures in human small-cell lung cancer
深入的蛋白质组学分析揭示了人类小细胞肺癌中独特的亚型特异性特征
发表期刊:Clin Transl Med
发表日期:2022 Sep
影响因子:8.554
DOI: 10.1002/ctm2.1060
一、研究背景
小细胞肺癌(SCLC)约占所有肺癌的13%-15%,它仍然是最致命的恶性疾病形式之一。它有一个非常积极的过程,其特点是广泛的染色体重排,高突变负担和几乎普遍的肿瘤抑制基因TP53和RB1的失活。尽管SCLC以前被认为是一种具有单一形态类型的同质性疾病,但最近SCLC研究的进展导致了主要基于神经内分泌(NE)特征和独特分子谱的亚型特定分类的发展。因此,SCLC可根据关键NE标志物(即SYP、CHGA、NCAM1/CD56和GRP)的表达模式分为NE高和NE低亚型。
基于质谱(MS)的蛋白质组学能够大规模分析复杂的生物系统,如细胞、组织或血浆。利用现代高分辨率质谱仪和先进的样品制备工作流程,平行检测和定量数以千计的蛋白质,包括那些丰度较低的蛋白质,能够更好地了解癌症中的分子相互作用和信号通路。
二、材料与方法
1、数据来源
1) 数据库:三个分泌组数据库,人类蛋白质图谱、SPRomeDB、MetazSecKB;人类蛋白质图谱的信息被用来注释人类血浆中可通过免疫测定、质谱或接近延伸试验检测的蛋白质;使用两个数据库来检索细胞表面蛋白的清单,即The Cancer Surfaceome Atlas 和Bausch-Fluck等人的in silico human surfaceome;为了注释具有亚型特征的"可药用"蛋白质,使用了人类蛋白质图谱网站上的可药用蛋白质组数据库
2) SCLC组织样本的转录组数据:38个SCLC-A,5个SCLC-N,7个SCLC-P和2个SCLC-Y样品
3) SCLC细胞系的基因组和转录组数据:癌症细胞系百科全书(CCLE)癌症细胞系的突变和RNA-Seq数据,RNA-Seq数据包含50个SCLC细胞系的测量结果,这些细胞系也被Rudin等人6分为亚型(26个SCLC-A、12个SCLC-N、4个SCLC-P和8个SCLC-Y)
4) SCLC细胞系的药物敏感性数据:从惠康桑格研究所的FTP服务器下载,总共有38个SCLC细胞系的亚型分类是已知的,其中6个在本研究中也通过蛋白质组学进行了测量(缺失的细胞系:DMS153, GLC4, H1882, H372, HLHE, N417)
2、分析流程
1)RNA分离和qPCR;蛋白质组学的样品处理,对26个细胞系的CPs和CM进行了处理,并进行了基于MS的蛋白质组学分析 ;纳米LC-MS/MS分析
2)蛋白质组学数据处理:数据库搜索在Proteome Discoverer v2.4上进行,使用SEQUEST HT搜索引擎结合光谱库搜索,使用UniProtKB人类数据库和Proteome Tools光谱库;对CP和CM样品分别进行数据处理,为了进行统计分析,对表达表进行过滤,以获取各样本中有效值不低于80%的蛋白质,结果CP和CM中分别有8405和5408个蛋白质;分泌蛋白、细胞表面蛋白、血浆蛋白和 "可药用 "蛋白的注释
3)差异表达分析:蛋白质组数据的差异表达分析是通过方差分析进行的;培养类型(粘附型、悬浮型)和亚型(SCLC-A, -N, -P, -Y)之间进行了比较;CCLE RNA-Seq数据的差异表达分析是通过limma对六个亚型的比较进行线性模型拟合;对于George等人的转录组数据集,对Z-评分值进行了配对的Wilcoxon测试,以检查亚型之间的基因表达差异
4)神经内分泌和上皮-间质转化的评分:NE得分=(NE标志物的平均Z-score)-(非NE标志物的平均Z-score);EMT得分=(间质标记物的平均Z分数)-(上皮标记物的平均Z分数)。
5)共识聚类:使用ConsensusClusterPlus R软件包中实现的共识聚类算法,以无监督的方式对样本进行分组
6)基因组富集分析:通过clusterProfiler R软件包的'GSEA'功能对所有六个亚型的比较进行预排序的GSEA(pGSEA);对George等人的转录组数据集进行ssGSEA ,只使用FPKM之和大于50的转录本,每个基因只保留一个转录本
7) 稀疏偏最小二乘法判别分析:稀疏偏最小二乘法判别分析(sPLS-DA)是通过mixOmics R软件包进行的,对完整的CP和CM数据(过滤和估算)分别进行了分析
三、实验结果
01 - 通过蛋白质组学检测SCLC细胞系的分子异质性
作者利用无标签蛋白质组学分析对26个来自原发性或转移性人类SCLC病变的细胞系进行了特征分析。共有10161个蛋白质被鉴定和量化(CP和CM中分别有9570和6425个蛋白质),这些蛋白质中的大多数在至少80%的样本中被量化(CP和CM中分别有8405和5408个蛋白质)。总的来说,注释了699个分泌蛋白,800个细胞表面蛋白,3440个可在人类血浆中检测到的蛋白,其中367个主动分泌到血液中,以及289个"可药用"蛋白在细胞系中。
首先,根据ASCL1、NEUROD1、POU2F3和YAP1的mRNA表达模式,作者将这些细胞系归入四个相应的亚组之一。SCLC-A、SCLC-N、SCLC-P和SCLC-Y(分别为八个、七个、四个和七个细胞系)(图1A,上图)。这些转录因子在其各自的亚型中也显示出蛋白水平的增加(图1A,下图)。
作者发现Myc原癌基因(MYC)家族的几个成员在样本中普遍表达(图S2a)。TP53和RB1基因的蛋白产物,分别在100.0%和88.5%的细胞系中被量化,与之前描述的TP53和RB1突变状态的细胞系无关(图S2b)。几个公认的亚型标志物显示了整个亚型的预期蛋白表达情况(图S2c),如chromogranin-A(SCLC-A标志物)、炭疽毒素受体1(SCLC-N标志物)、advillin(SCLC-P标志物)和多种整合素(SCLC-Y标志物)(图1B)。
图1 SCLC细胞系的蛋白质组学分析突出了分子异质性这些细胞系通过其NE和EMT特征被进一步描述。每个细胞系的NE分数由19个NE和17个非NE标记物构成,EMT分数由12个上皮和10个间质标记物构成(图S3a, b)。图1D显示了每个样品中NE、非NE、上皮和间质标记物的平均蛋白丰度,而图S3c则描述了各亚型的平均NE和EMT分数。正如预期的那样,大多数SCLC-A细胞系表达NE和上皮标志物比非NE和间质标志物更强烈。SCLC-N被发现是一个相当具有上皮-间质混合特征的NE亚型。在本研究数据集中,SCLC-P表现出适度的非NE特征(即低于SCLC-A和-N,但高于SCLC-Y);然而,在该亚型中检测到上皮细胞标记物的高表达。相反,SCLC-Y细胞系表现出突出的非NE和间质特征。与这些发现相一致的是,delta样蛋白3(DLL3)蛋白,一种抑制性Notch通路配体的表达量从SCLC-A到SCLC-Y逐渐减少,表明Notch通路的逐渐激活(图S2c)。
图S2 数据中选定的蛋白质的表达情况比较不同性质的细胞系之间的NE和EMT分数,如培养类型、细胞系来源和化疗治疗,发现粘附型细胞系的NE分数明显低于非粘附型细胞系(图S3d-f)。此外,NE和EMT分数之间存在明显的负相关关系(图S3g)。
图S3 NE和EMT细胞系特征02 - 蛋白质组中异质性体外生长特征的表现
尽管在相同的体外条件下,这些细胞系表现出明显不同的生长特性。具体来说,在26个细胞系中,10个(38.5%)在悬浮液中生长,3个(11.5%)以半粘附形式生长,其他13个(50.0%)在塑料上粘附生长(图2A)。粘附和非粘附的细胞系显示出明显不同的蛋白质表达谱(图2B,C)。总的来说,与粘附在CP和CM上的细胞系相比,悬浮细胞系中有270个和148个蛋白质明显下调,而在CP和CM上的悬浮细胞系中有244个和244个蛋白质明显上调(图2B,C,左侧)。分别对CP和CM进行差异表达蛋白的ORA,但结合上调和下调的蛋白,显示KEGG途径,如内质网、溶酶体和糖胺聚糖降解中的蛋白处理在CP和CM中都明显富集,以及其他途径,如CP中的内吞作用和CM中的间隙连接被过度代表,从而支持蛋白水平上的表型细胞系差异(图2B,C,右)。
图2 蛋白质组中反映的体外生长特征03 - 基于蛋白质组的SCLC亚群与基于mRNA的亚型匹配
为了研究蛋白质组亚型是否与基于mRNA的分类相关,根据变化最大的蛋白质对CP样本进行了无监督共识聚类。分析显示,蛋白质组数据中有四个聚类,这与基于mRNA的亚型划分一致(图3A)。只有一个细胞系(H1882)发现了差异,根据qPCR数据被归入SCLC-A亚组,而根据蛋白质组学结果被归入SCLC-P亚组。值得注意的是,该细胞系也显示出比其他SCLC-A细胞系更高的POU2F3 mRNA表达(图3A)。此外,两个粘附的SCLC-A样本(H1688,DMS53)与它们的组员相当分离。值得注意的是,SCLC-Y样本表现出最独特的蛋白质表达谱。之前的观察也很好地反映在CP样本的PCA图上(图3B)。另一方面,CM样本根据其最易变的蛋白质表现出相当异质的表达谱,PCA图显示根据基于mRNA的亚型分类没有明显的分离(图3C)。相应地,PVCA显示,与CP相比,分子亚型对CM的蛋白质表达变异性的贡献不大(图3D)。此外,培养类型被认为是SCLC细胞系蛋白质组学特征的一个重要贡献者,这在CM中更为明显。
图3 基于mRNA的SCLC亚型分类与蛋白质组学数据相关联04 - SCLC亚型的多组学图谱概述了潜在的亚型特异性弱点
根据基于mRNA和蛋白质组的亚型之间的高度一致性,作者使用基于mRNA的分类系统进行亚型之间的差异表达分析。发现了367个和34个亚型特异性蛋白,在CP和CM数据中,与所有其他三个亚型相比,它们的水平分别不同。这也包括在CP数据中具有开/关特性的四个蛋白,即achae-scute homolog 1(ASCL1;在SCLC-A中 "开")、G-蛋白信号调节器22(RGS22;在SCLC-P中 "开")、neurexophilin-4和puratrophin-1(NXPH4和PKHG4;在SCLC-Y中 "关")。然后对所有亚型特异性蛋白(包括来自CP和CM的蛋白)进行了路径分析。
除了确定亚型特异性蛋白外,还使用pGSEAs进行了基于路径的亚组比较。寻找在某一亚型中与其他三种亚型相比被一致激活或抑制的重要途径。使用CP数据中量化的蛋白质的完整列表(n = 8405)进行了所有成对的亚型比较。此外,对来自CCLE的50个SCLC细胞系的RNA-Seq数据进行了同样的分析(n = 9237个基因),最后评估了蛋白质组学和转录组学结果之间的关系。
根据亚型特异性蛋白(n = 33),SCLC-A的KEGG过程明显过度代表,包括氧化磷酸化(OXPHOS),以及苯丙氨酸代谢和白细胞跨内皮迁移(图4A)。与此相一致的是,pGSEA结果也显示基于蛋白质组学数据的OXPHOS和呼吸链元素的上调。两个数据集都支持对神经前体细胞增殖的正向调控,而转录组学则显示SCLC-A中表皮下发育基因集的激活(图4B)。
SCLC-N(n = 54)中的亚型特异性蛋白促成了KEGG途径的明显过度代表,如细胞周期、吞噬体、核黄素代谢和过氧化物增殖体激活受体信号途径(图4C)。根据pGSEA,SCLC-N可以通过抑制表皮的发育过程而得到进一步描述。蛋白质组学数据还概述了免疫反应、细胞因子信号、细胞粘附和细胞骨架组织的下调,以及转录和DNA复制的上调(图4D)。考虑到SCLC-P特定的蛋白质(n = 32),检测到三个明显富集的KEGG途径,即磷脂酶D信号、溶酶体以及其他糖降解(图4E)。此外,pGSEA显示SCLC-P中的神经营养素信号通路和薄层组织基因组被激活(图4F)。
图4 SCLC-A/N/P的亚型特异生物过程关于SCLC-Y,多个KEGG途径在亚型特异性蛋白(n = 271)的背景下明显过度代表,如细胞外基质(ECM)-受体相互作用、焦点粘附、剪接体、过氧化物酶体或O-聚糖的生物合成(图5A)。同样,根据pGSEA,与其他亚型相比,SCLC-Y的大量过程显示出上调,如ECM组织、细胞因子介导的信号、白细胞介素信号、炎症反应、EMT、对生长因子的反应、细胞-基质粘附和丝裂原活化蛋白激酶(MAPK)级联。转录组数据显示,凋亡途径和Janus激酶-转录信号转导剂和激活剂信号的激活,而蛋白质组学显示Rho-GTP酶信号的上调,以及跨膜转运器紊乱相关过程的激活。此外,正如蛋白质组学数据所检测到的,DNA修复、蛋白质乙酰化和染色质修饰在该亚型中被发现下调(图5B)。
为了验证细胞系在SCLC组织中观察到的亚型特异性,调查了George等人发表的SCLC组织转录组数据集中早期概述的亚型特异性过程的代表性基因组(n = 33)的行为,ssGSEA确定了22个基因组,其亚型特异性在组织数据中得到了一定程度的确认(图5C)。其中,SCLC-A的OXPHOS激活,SCLC-N的DNA复制上调和免疫反应下调,以及SCLC-Y更活跃的EMT和抑制的DNA修复都可以被强调。SCLC-P的亚型特异性过程都不能通过组织转录组学来验证。
图5 SCLC-Y的亚型特异性生物过程和利用组织转录组学验证的过程05 - 蛋白质组学分析确定了SCLC亚型的潜在诊断标志物和可药用目标
除了差异表达分析外,还对CP和CM分别进行了sPLS-DA,以确定最适合根据其表达模式进行亚型分类的蛋白质(即潜在的IHC-或基于血液的标记物)。分析的结果是104个蛋白质(CP和CM数据集中分别有82个和23个;两个数据集中都检测到一个蛋白质)在至少两个亚型之间表现出明显不同的特征。通过sPLS-DA选择的蛋白质可分为以下表达模式类别:SCLC-A相对于-N上调,SCLC-N相对于SCLC-A上调,SCLC-P(相对于其他亚型)上调,SCLC-Y上调和SCLC-Y下调(图6A)。值得注意的是,104个蛋白质中的35个和17个在SCLC-Y亚型中分别显示出明显的上调或下调。对于几个标志物,其表达模式与SCLC组织的转录组数据相匹配(图6B中显示了前三名)。值得注意的是,其中8个蛋白在SCLC-Y中被发现过度表达,包括可能的GPX8、PDK2和AXL(图6B)。
在组织转录组水平上确认的蛋白质中,有6个在人血浆中也可通过MS检测到,即AXL(在SCLC-Y中上调)、BCAM(在SCLC-A与-N中上调。-N)、GTPBP1(在SCLC-N与-A中上调)、KRT18(在SCLC-A与-N中上调)、OLFM1(在SCLC-N与-A中上调)和PLCG2(在SCLC-P中上调)。这个名单中最有希望的血液生物标志物是蛋白质UFO,它以前也是通过免疫测定检测的。
最后,调查了在通过差异表达分析或sPLS-DA检测到的蛋白质中(总共418个独特的蛋白质),是否能找到 "可药用 "的蛋白质(即FDA批准的药物目标)。作者确定了其中的六个蛋白,作为亚型特异性治疗的潜在目标:芳香族-L-氨基酸脱羧酶(DDC,在SCLC-A中过量表达),肾上腺素A型受体2(EPHA2),整合素α-V和β-1(ITGAV,ITGB1,在SCLC-Y中过量表达),组蛋白去乙酰化酶1(在SCLC-A/N/P与SCLC-Y中过量表达)和肥大/干细胞生长因子受体Kit(KIT,在SCLC-P中过量表达)。作为其作用机制的一部分,可以划分出多种直接与上述蛋白相互作用的药物。此外,SCLC细胞系已经针对其中七种药物进行了测试,即达沙替尼(针对EPHA2)、伏立诺他(针对HDAC1)、伊马替尼、帕唑帕尼、索拉非尼、舒尼替尼和蒂沃扎尼(均针对KIT)。因此,调查了在GDSC1或GDSC2数据集中,各亚型对这些药物的敏感性是否有差异。根据GDSC1数据集,本研究细胞系中EPHA2、KIT和HDAC1蛋白丰度较低,表明对靶向这些蛋白的药物的耐药性增加(图6C)。这一趋势没有被GDSC2数据集的达沙替尼所验证;然而,一些KIT靶向药物(帕唑帕尼、舒尼替尼、蒂沃扎尼)的IC50中值在SCLC-P细胞系中最低,以及SCLC-Y亚型对伏立诺他的较高抗性也可以得到验证。
图6 在SCLC亚型中具有诊断和治疗意义的蛋白质四、结论
通过基于MS的蛋白质组学研究,SCLC细胞系可以被分为四个不同的亚型,这与基于qPCR的分类非常吻合。重要的是,一个独特的YAP1驱动的亚型也可以被区分出来,具有特定的蛋白质组学特征。对这些亚型进行全面的蛋白质组学分析,发现了这个曾经神秘的癌症的候选亚型特异性治疗弱点清单。此外,还发现了几个潜在的基于IHC和血液的生物标志物,可能有助于未来的亚型诊断。
网友评论