美文网首页
最新Cell子刊5.8分纯生信,激酶相关机器学习分析。该杂志只接

最新Cell子刊5.8分纯生信,激酶相关机器学习分析。该杂志只接

作者: 生信小课堂 | 来源:发表于2024-08-20 07:36 被阅读0次

影响因子:5.8

研究概述:激酶作为一种重要的酶,可以将磷酸基团从高能供磷分子转移到特定的底物中,在各种细胞过程中发挥重要作用。因此,了解癌症组织中的激酶活性谱是癌症治疗的基础。尽管测量激酶活性的非放射性方法取得了重大进展,但研究尚未探索激酶活性与RNA-seq之间的相关性,目前也还没有研究指出特定激酶活性作为不同类型癌症分化的生物标志物的潜力。在这项研究中,作者提出了一个计算框架KinPred-RNA,能从癌症样本的大量RNA测序数据中得出激酶活性。作者采用了结构化的多步骤工作流程。第一步是收集和预处理五种特定癌症类型的数据:乳腺癌(BC)、多形性胶质母细胞瘤(GBM)、肝细胞癌(HCC)、肺鳞状细胞癌(LSCC)和子宫体子宫内膜癌(UCEC)。下一步是应用各种回归技术来预测激酶活性。这些技术包括极端梯度增强(XGBoost)回归、随机森林(RF)回归、多元线性回归和支持向量机(SVM)回归。最后一步通过分析预测的激酶活性谱,特别是scRNA-seq数据,严格评估了开发的模型。总之,这项研究将证明高通量测序和计算工具在识别癌症生物标志物和治疗靶点方面的巨大潜力。

研究结果:

本研究的整体工作流程

图A说明了数据收集和预处理的过程。为保证数据质量,作者收集了BC、GBM、HCC、LSCC、UCEC等5种癌症类型的磷酸化蛋白质组学数据、bulk RNA-seq数据和scRNA-seq数据。采用KESA、预处理和Seurat分别对三类数据进行预处理,使数据标准化,便于下游分析。图B展示了激酶活性预测:采用归一化的大量RNA-seq基因表达谱和XGBoost回归模型构建激酶活性预测模型。图C展示了癌症类型分类:使用XGBoost建立分类模型来区分不同的癌症类型。图D展示了下游分析:在模型开发、性能评估和scRNA-seq数据预测激酶活性谱分析之后,作者进行了进一步的研究来评估模型的性能。


非线性回归模型将基因表达与激酶活性联系起来

图A表现了不同癌症类型对应底物的激酶活性与基因表达谱Pearson相关系数分析,结果显示在不同的癌症条件下,大多数激酶活性与底物的基因表达没有很强的相关性,强调了激酶活性和底物基因表达之间的复杂关系,这种关系在不同的癌症类型之间可能存在显著差异。图B XGBoost模型对ARAF、ABL1和CSNK1E的激酶活性进行随机森林回归、多元线性回归和SVM回归的基准测试,结果显示XGBoost模型在五种癌症类型中具有更好的性能和稳定性。


基于KinPred-RNA模型的五种癌症类型的激酶活性预测结果及相应的特征重要性

图A中展现了可预测性(R2)分布结果。该模型准确预测了HCC和LSCC中超过50%的激酶活性。图B展示了在每种癌症类型数据集中,R2大于0.5的激酶比例与样本量呈正相关,这表明更大的队列可以提高KinPred-RNA的性能。图C通过KinPred-RNA模型展示了不同癌症类型的每种细胞类型中作用基因的特异性。作者以ARAF、ABL1和CSNK1E为例,展示了这三种激酶的主要作用基因(见Table 1)。基于KinPred-RNA,Table 2根据其对五种不同癌症类型的R2值排名高低,展示了具有最高可预测性的前10个激酶。




基于XGBoost分类模型的癌症类型分类能力

图A展示了分别以10个最高和10个最低可预测激酶活性为输入特征的XGBoost多分类模型的混淆矩阵。图B显示了不同可预测性激酶组合的XGBoost多分类模型的分类性能(按R2排序)。使用前10个激酶作为输入特征时,该模型在癌症类型分化中的Macro F1得分为0.885。相比之下,图B展示了当使用10个预测最少的激酶作为输入特征时,该模型仅获得0.627Macro F1得分,表明高可预测激酶活性作为输入特征对癌症类型分类的效果更好。图C显示了五种二元分类模型中使用的前10种激酶的ROC曲线,每种模型将一种特定的癌症类型与其他四种癌症类型区分开来。每个图包括XGBoost、RF、logistic回归和SVM的基准结果。从5个图中可以看出,在二元分类任务中,XGBoost和RF比逻辑回归和SVM表现得更好。Table 3展示了四种模型对五种癌症类型的F1-score、准确率、Mathew’s correlation coefficient (MCC)、AUC。



KinPred-RNA模型在泛癌scRNA-seq数据集中的应用

图A是乳腺癌单细胞数据集的UMAP降维,共鉴定出14个细胞集群。图B展现了其中PTPRC和EPCAM的表达水平(PTPRC作为免疫细胞的标记基因,EPCAM作为上皮细胞的标记基因),可观察到PTPRC在第3、4、5、7、10和12簇中高表达,EPCAM在第2、8、9和11簇中高表达。因此,在图C中作者将簇3、4、5、7、10和12注释为免疫细胞,将簇2、8、9和11注释为上皮细胞。图D预测了免疫细胞和上皮细胞之间的激酶活性,KinPred-RNA识别PLK1在上皮细胞和免疫细胞之间的活化差异。图E是lung 08肿瘤样本供体和lung 08正常样本供体scRNA-seq数据集的t-SNE图。PAK1和CDK2预测了免疫细胞和上皮细胞的激酶活性,KinPred-RNA展示了UBE2C是ROCK1和ROCK2活性预测的主要作用基因,突出了癌症类型特异性因子对激酶活性预测的贡献(图F)。图G证实了ROCK1和ROCK2活性在肺癌和正常样本中的差异表达。图H预测了肿瘤细胞和正常细胞之间的激酶活性。


研究总结:

在这项研究中,作者关注癌症组织中的激酶活性谱,研究特定激酶活性作为不同类型癌症分化的生物标志物的潜力。作者提出了一个基于机器学习的计算框架KinPred-RNA,能从癌症样本的bulk RNAseq以及scRNAseq中得出激酶活性,从而潜在地促进癌症的识别和靶点的预测。

相关文章

网友评论

      本文标题:最新Cell子刊5.8分纯生信,激酶相关机器学习分析。该杂志只接

      本文链接:https://www.haomeiwen.com/subject/gsgskjtx.html