美文网首页
7+生信,单细胞+分型+机器学习组合,可重复,此种思路正流行!

7+生信,单细胞+分型+机器学习组合,可重复,此种思路正流行!

作者: 生信小课堂 | 来源:发表于2024-12-04 09:39 被阅读0次

影响因子:7.3

研究概述:肝细胞癌(HCC)又称肝癌,是一种发病率很高的常见恶性肿瘤。然而,患者对不同药物的反应性差别较大,因此需要在分子层面选择为合适的患者选择合适的治疗方案。基于基因的分子亚型分析技术将在未来的肿瘤治疗中发挥关键作用,最近的大规模单细胞测序揭示了HCC的免疫微环境亚型,深入分析了肿瘤相关中性粒细胞的功能异质性后发现以肿瘤相关中性粒细胞为靶点可能成为治疗 HCC 的一种新的免疫疗法策略。中性粒细胞介导的免疫过程(称为中性粒细胞胞外捕获物(NET))对肿瘤的发展有重要影响,在 HCC 的发生、转移、治疗和免疫逃避中发挥着关键作用。然而,中性粒细胞亚型在肿瘤微环境中的功能转变受肿瘤微环境具体特征的影响,这就需要单细胞测序技术准确分析不同临床类型 HCC 中肿瘤微环境的异质性,并分辨出肿瘤发生过程中具有独特特征的中性粒细胞亚型。尽管单细胞测序比较昂贵以及脆弱的中性粒细胞在解离过程中容易丢失,但根据中性粒细胞对 HCC 患者进行分型,从而确定亚型并评估患者预后,为临床治疗和用药提供指导是可行的。在本研究中,作者从单细胞转录组出发,筛选出中性粒细胞的marker基因,使用整合了101种机器学习算法的框架,利用中性粒细胞相关特征开发并验证了 HCC 患者的风险分层特征。评估了不同风险分层在生物和临床病理特征、预后方面的价值,并在多队列和多组学的层面进行了验证。此外,作者选取了10个hub基因中的RTN3进行了初步的实验验证,具有较高的转化价值。

机器学习目前在肿瘤和非肿瘤生信中越来越常见,不管是构建模型还是筛选关键基因,都有很出色的发挥。!

研究结果:

单细胞转录组降维与聚类

这部分主要是使用Seraut包对肝细胞癌数据集GSE215428进行tSNE降维聚类,A图注释治疗信息,B图展示Seraut分组的结果,C图是作者注释的细胞信息,发现Seraut包注释的第3和第7群细胞是我们关注的中性粒细胞。图D展示了4群注释的免疫细胞的TOP5marker,图E是各群细胞注释到的KEGG通路,可以发现它们参与了各种功能和疾病病理。



Seraut降维聚类得到的中性粒细胞群marker基因有208个,作者基于TCGA中肝细胞癌的bulk转录组数据的208个基因表达量进行了共识聚类,得到3个明显不同的亚群(图A-C)。这三个亚群能够很好地预测TCGA和HCCDB18两个队列肝癌患者的生存(图D-E),主成分分析结果同样显示这三类是明显不同的。


随后,作者将聚类与临床信息关联,从性别、分期分级、年龄及生存状态等方面尝试找出三个亚群在临床指标上的差异(图A),用卡方检验发现,与其他亚型相比,第三类样本中 G3+G4 期患者的比例更高。这一发现表明分子亚型与肿瘤分级之间存在潜在联系(图B)。



这部分作者使用ESTIMATE(A),MCPcounter(B),CIBERSORT(图C)评估了TCGA患者各种免疫细胞的浸润丰度,发现三个亚群在几乎所有免疫细胞的浸润丰度都有显著差异。另外,作者评估了三个亚群在不同免疫检查点表达量的差异(图D),发现同样几乎所有免疫检查点在三个亚群表达都有差异。这些充分说明了这三个亚型在免疫浸润层面显著不同。



在免疫浸润之后,作者又使用TIDE算法评估了三个亚型免疫逃逸的情况(图1A),发现与预后不良相关的cluster 2 和 cluster 3 与cluster 1 相比显示出更高的 TIDE 分数,这表明免疫逃避的趋势更大。接下来,作者从 KEGG 网站获取了炎症相关通路基因集,并使用 ssGSEA 方法计算了通路得分(图1B),观察到cluster1的的炎症通路得分明显低于其他亚型。


然后,作者对三个类群进行了全面的KEGG通路富集分析(图2A),并探索了三个cluster各自富集的通路,同样观察到了不同类群间显著的差异(图B-D)。这些结果表明,中性粒细胞相关的标记基因能有效区分 HCC 患者的异质性。


这部分是这项研究的核心部分,整合了机器学习及基础实验。在探索了三个类群各自的特征之后,作者使用单因素cox回归分析(图1A)从208个marker基因中选出20个生存相关的基因并将这 20 个基因作为输入特征,使用留一交叉验证(LOOCV)框架拟合了101个预测模型(图1B),在训练队列及三个验证队列(包括 GSE14520、GSE116174、HCCDB18 和 TCGA-LIHC)中计算量化模型预测效能的c-index,最终发现CoxBoost和RSF组合的平均c-index最高,为0.671。选出最佳算法后,作者根据20个输入基因在此算法中的特征重要性排序得到10 个关键基因,并使用 rfsrc 函数根据这 10 个基因的表达水平预测了每位患者的风险评分。之后,基于此风险评分作者将不同队列中的患者分为高风险组和低风险组并发现分组在四个队列中都可预测患者生存(图1C)。

之后,由于RTN3在多个癌症队列中表达量高于正常组织并且均与患者生存相关,作者选取了RTN3进行实验验证。在敲减了RTN3并用WB验证后(图D),作者进一步通过克隆形成实验(图E)和迁移侵袭实验(图F-G)说明敲减此基因能欧引起肿瘤细胞增殖能力及迁移侵袭能力降低,提示有转化价值。


得到风险得分以及分组后,作者继续评估了两组之间不同临床特征的差异,发现两组患者在肿瘤分期、生存状态以及肿瘤分级上有显著差别(图A),图B展示了不同风险得分患者的临床特征如何,有一定的趋势性,图C柱状图表明风险分组在不同类群及其他临床特征之间均具有显著差异。随后的单因素和多因素cox回归分析结果都说明风险得分能够有力地预测患者生存(图D-E),并发现诺曼图、风险得分的AUC值显著高于肿瘤分期(F)。这些发现表明风险得分能够准确预测患者预后及其他临床特征。

这部分是风险分组在基因组学层面的验证与探索。作者使用maftools包对基因突变进行分析,发现两组突变的主要基因大致相同(图A),并发现两组在同源重组缺陷(P<0.001)、改变部分(P<0.001)、片段数量(P<0.001)和肿瘤突变负荷(P<0.001)都有显著差异,并且结果与当前普遍的认知相符,即肿瘤突变负担越高的患者越容易从治疗中获益(图B)。此外,作者通过对拷贝数变异的分析评估了10 个基因的缺失和扩增比例(图C)。


这部分是免疫基因组学层面的验证与探索。作者使用 ssGSEA 方法分析了风险得分与28种免疫细胞之间的相关性(图A),并使用散点图直观展示其中显著相关的免疫细胞(图B)。随后,作者使用 TIDE 算法评估了两组患者的免疫逃逸情况(图C),发现风险分数高的患者具有较高的 TIDE 预测分数,表明从免疫疗法中获益的可能性降低。TIDE算法还预测出两组患者对免疫治疗的反应性,发现无反应组的高风险患者比例即平均TIDE评分更高(图D)。


将风险得分与免疫治疗关联后,作者进行了药物敏感性分析,使用CTRP和PRISM两个药理基因组学数据库作为训练集,用TCGA转录组数据作为测试集得到了两组之间AUC值有显著差异的药物(筛选条件:高风险组中AUC估计值较低且log2FC >0.2,因为AUC越低表示对药物越敏感)。然后,作者对风险得分与药物敏感性进行了相关性分析,筛选出负相关的药物(即患者风险得分越高其AUC值越低的药物),并通过柱状图将其可视化(图A-B)。


研究总结:本研究从单细胞转录组出发,得到了中性粒细胞的marker基因并基于此通过共识聚类将肝细胞癌患者分为三个具有不同临床特点的分子亚型。接下来,作者使用留一交叉验证框架拟合了101个预测模型,从中选出预测效能最好的CoxBoost和RSF组合并基于此挑选出10个hub基因,从而构建出中性粒细胞相关的基因特征。基于此基因特征,作者为每个患者计算了风险评分并将其分为高低风险两组,从临床特征,基因组学,免疫基因组学及药理基因组学层面进行了验证与探索,说明作者开发的中性粒细胞相关特征能够较好地预测肝癌患者的预后。另外,作者选取了10个hub基因中的RTN3进行了初步的实验验证,具有较高的转化价值。

相关文章

网友评论

      本文标题:7+生信,单细胞+分型+机器学习组合,可重复,此种思路正流行!

      本文链接:https://www.haomeiwen.com/subject/usrusjtx.html