8.8分1区纯生信，10种聚类方法+百种机器学习方法，可重复！

作者: 生信小课堂 | 来源:发表于2024-02-24 19:14 被阅读0次

Python机器学习应用
9.machine_learning_clusting_and_
机器学习（7）——聚类算法
python机器学习库
聚类分析-kmeans
K-Means聚类算法
关于学习：第三章（上）
机器学习之kmeans聚类
第六章数据聚类算法——基于系统聚类法
机器学习之DBSCAN聚类算法学习

影响因子：8.8

研究概述：膀胱癌是最常见的尿路上皮癌，其中肌层浸润性膀胱癌（MIBC）往往进展迅速并发生转移，死亡率高。虽然免疫疗法在肌层浸润性尿路上皮癌（MUC）的治疗中已经取得重大进展，但仍有相当一部分患者未能从中获益，这可能是由于MUC患者具有明显的异质性，而分子亚型可能有助于解决这一问题，因此亟待利用大规模多组学数据和先进的机器学习算法来确定生物标志物以为MUC患者进行有效的疗效预测。在这项研究中，作者结合了mRNA，lncRNA, miRNA，基因组突变和甲基化组数据，利用10种多组学分型的算法构建了MUC的分子亚型。随后，作者根据不同亚型的差异表达确定了32个稳定的预后相关基因（SPRGs），并采用10种机器学习算法共99种算法组合构建了机器学习驱动特征（CMLS）。在训练和验证队列中，CMLS显示出显著的预后价值，同时在预测对免疫疗法和药物疗法的反应方面表现出强大的性能。该研究为完善 MUC 分子亚型、加强这种恶性肿瘤的精准分层和个体化治疗方法提供了一个重要的参考。

机器学习目前在肿瘤和非肿瘤生信中越来越常见，不管是构建模型还是筛选关键基因，都有很出色的发挥！

研究结果：

流程图

选出mRNA, lncRNA, miRNA, 基因组突变以及甲基化组中变异程度最大的1500个基因，随后使用单因素cox回归筛选出预后相关基因作为候选基因（突变信息根据突变频率筛选）。接下来使用10种多组学聚类方法将MUC患者分为3个亚型，然后进一步使用基于10种机器学习算法的99种算法组合选出最能准确预测免疫治疗队列患者生存的CoxBoost+Stepwise Cox组合，使用该组合构建CMLS，从而全面评估其与预后，免疫治疗反应，肿瘤免疫微环境以及药物治疗反应之间的关系。

基于多组学和机器学习的MUC 预后相关分子亚型

分型是基于TCGA-BLCA的多组学数据，使用MOVICS包进行多组学多算法多分型的整合。首先使用包中的getElites函数筛选出各组学中变化最大的前1500个基因（或突变频率最高的1500个基因），再以此作为输入，使用包中getMOIC函数中流程化的10种聚类算法: iClusterBayes, moCluster, CIMLR, IntNMF, ConsensusClustering, COCA, NEMO, PINSPlus, SNF和LRA，根据先前的研究指定将患者分为三型，获得每种算法的分型结果后，使用getConsensusMOIC函数整合10种分型的结果并最终生成一种稳健的分型（以下称为CSs）。图A是整合分型在多组学中的分型效果，图B展示了CSs以及10种分型的结果，图C的相关性热图也展示了各亚型内的相似性以及亚型间的不相关性，图D的KM曲线说明基于多组学和多模型构建的分型能够准确对患者预后进行分层。

各亚型的分子景观

图A是作者收集的与治疗反应相关以及膀胱癌相关的signature的GSVA得分在亚型之间的差异，表明CS2可能更倾向于目前公认的管腔样亚型，而CS3可能更倾向于基底样亚型。图B分析了与癌症染色质重塑相关的潜在调节因子和23个转录因子在3个亚型间的差异，证实了CSs的生物学相关性。图C顶部注释显示了肿瘤浸润淋巴细胞的免疫富集得分、基质富集得分和 DNA 甲基化，热图上图显示了典型免疫检查点基因的表达，下图显示了 24 种 TME 相关免疫细胞的富集水平。接下来，作者对META-MUC（8个尿路上皮癌转录组数据去批次后整合成的一个meta队列）三个亚型之间进行了差异分析，选择了 20 个对每个亚型特异性上调的基因作为分类器，图D是三个亚型的TOP20基因表达热图（图D），图E的KM曲线验证了META-MUC中分型的生存预测能力，图F-I比较了CSs和NTP以及PAM分类器的一致性。

构建CMLS

图A是基于10种机器学习组合的99种算法对TCGA-MUC, IMvigor-MUC和META-MUC三个队列的生存进行了预测，比较用于量化预测性能的C-index发现CoxBoost + Stepwise Cox的预测性能最好，其中CoxBoost用于对预后基因进行进一步筛选，最终获得12个hub基因（图B），图C是这12个hub基因在三个队列中的单因素cox回归结果，随后基于最佳算法构建了CMLS，图D-G通过KM曲线证明了CMLS对生存的预测能力。

比较CMLS与其他signature

作者收集了22个已出版的signature，在TCGA-MUC, META-MUC, IMvigor-MUC队列中比较其与CMLS对预后的预测效能，发现CMLS在META-MUC和IMvigor-MUC队列中预测效能最高（图A-C）。为了增强实用性，作者基于CMLS构建了诺莫图并将其做成交互界面（图D）。校准曲线证明（图E），列线图的精度与实际情况相一致。决策曲线分析（DCA）显示，列线图对患者的临床获益明显高于单独使用CMLS（图F, G），且时间依赖的c指数进一步证明了列线

与 CMLS 有关的免疫特征

这部分作者使用IOBR包对MUC的TME进行了全面分析，观察到低CMLS患者的免疫细胞浸润水平（包括T细胞、B细胞和巨噬细胞）明显高于高CMLS患者，表明存在免疫激活状态（图A）。图B和C说明与免疫抑制和排斥相关的分子标记物也主要在高CMLS组中富集，显示出免疫抑制状态，之前报道的与更好的免疫治疗相关的特征也在低CMLS组中显著富集（图6D），这些发现都倾向于将高CMLS组归为“冷肿瘤”，将低CMLS组归为“热肿瘤”。图E-H说明肿瘤突变负荷TMB，及肿瘤新抗原负荷TNB以及M1浸润在低CMLS组中均更高，图G-H分别以这三个因素为分组变量，结合CMLS分组进行生存分析并绘制KM曲线，发现CMLS越低，TMB, TNM以及M1巨噬细胞浸润越高，MUC患者生存越好。

CMLS 对免疫疗法反应具有出色的预测能力

作者首先对IMvigor-MUC 队列进行了详细分析，因为该队列拥有全面的预后和治疗相关信息。考虑到免疫治疗延迟起效，作者评估了治疗 3 个月后患者的长期生存期差异，发现低分组显示出更好的预后效果（图A,B），图C柱状图表明在有反应组的CMLS得分低于无反应组。图D是基于TIP算法评估的抗肿瘤免疫7步骤活性在两组间的差异，发现第4/5/7步差异显著，这与上述结果一致。接下来，作者使用TIDE算法预测了免疫治疗反应（图E），柱状图展示了高低CMLS组间有反应和无反应患者的比例，图F是基于submap算法评估CMLS分组与抗PD1以及CTLA4疗效反应分组的一致性，这些分析均发现低CMLS患者对免疫治疗反应更好。图G-I是CMLS在另外三个免疫治疗队列中预测预后效能的评估，同样发现低CMLS的疗效可能更好。

筛选潜在的治疗药物

图A的GSEA富集分析发现高CMLS组患者的血管生成、EMT、缺氧等通路被明显激活，从前的研究指出ERCC1是接受顺铂化疗晚期膀胱癌患者的预后标志物，图B表明ERCC1表达水平低的患者对顺铂治疗的反应更强，这说明这部分的敏感药物筛选是合理的。图C是为免疫治疗不敏感的高CMLS组患者筛选潜在药物的流程图，基于CTRP和PRISM药敏数据以及细胞系表达矩阵，将细胞系分为高低CMLS两组，两组间进行秩和检验得到高CMLS敏感性高的药物，同时对药物反应和CMLS得分进行spearman相关性分析获得敏感性与CMLS正相关的药物，两者取交集得到候选药物。图D和E分别是基于CTRP和PRISM数据库筛选出的潜在药物，图F和G是这些药物作用靶点在正常与肿瘤之间的差异表达，最终鉴定出达沙替尼和罗米地辛是治疗高CMLS患者的潜在药物。

研究总结：
本研究通过多组学共识聚类确定了MUC的三种分子亚型，揭示了它们在预后方面的显著差异，并有可能细化MUC的分子分型。利用机器学习算法框架构建了CMLS，它在多个队列中表现出优越的性能，可以稳健地预测患者预后，同时显示出与免疫治疗反应密切相关。考虑到在高CMLS组中观察到的不良预后和低免疫治疗反应，作者进一步进行了药物敏感性分析，筛选出达沙替尼和罗米地辛两种潜在药物。本研究通过将多组学数据和大量机器学习算法相结合，为MUC患者的早期诊断和精确治疗提供了基础。

Python机器学习应用
Scikit-learn: 机器学习方法工具集-提供一批统一化的机器学习方法功能接口-提供聚类，分类，回归，强化学...
9.machine_learning_clusting_and_
机器学习聚类与降维机器学习中的聚类算法聚类是一种经典的无监督学习方法，无监督学习的目标是通过对无标记训练样本的...
机器学习（7）——聚类算法
聚类算法前面介绍的集中算法都是属于有监督机器学习方法，这章和前面不同，介绍无监督学习算法，也就是聚类算法。在无监...
python机器学习库
库名功能scikit-learn支持分类、回归、聚类、数据降维、模型选择、数据预处理，提供了一些机器学习方法的接口...
聚类分析-kmeans
聚类分析是一种静态数据分析方法，常被用于数据挖掘、机器学习、模式识别等领域，聚类是一种无监督式的学习方法。它是在未...
K-Means聚类算法
一、聚类思想所谓聚类算法是指将一堆没有标签的数据自动划分成几类的方法，属于无监督学习方法，这个方法要保证同一类的...
关于学习：第三章（上）
第三章：学习方法我将学习方法分为通用方法，知识类学习方法，技能类学习方法和自学类学习方法。通用学习方法可以作为其...
机器学习之kmeans聚类
原文地址一、聚类思想所谓聚类算法是指将一堆没有标签的数据自动划分成几类的方法，属于无监督学习方法，这个方法要保...
第六章数据聚类算法——基于系统聚类法
数据聚类分析是一种无监督的机器学习方法。数据聚类算法从算法实现的不同方式方面可以划分为结构性或者分散性两种算法类型...
机器学习之DBSCAN聚类算法学习
1、常见聚类方法简介聚类是机器学习中一种重要的无监督算法，它可以将数据点归结为一系列特定的组合。在数据科学中聚类...