美文网首页
使用多组学生物信息学分析构建AML预后模型

使用多组学生物信息学分析构建AML预后模型

作者: 生信学霸 | 来源:发表于2022-11-22 09:28 被阅读0次

    Construction of a solid Cox model for AML patients based on multiomics bioinformatic analysis

    基于多组学生物信息学分析,构建AML患者的实体Cox模型

    发表期刊:Front Oncol

    发表日期:2022 Aug 10

    影响因子:5.738

    DOI:  10.3389/fonc.2022.925615

    一、研究背景

            急性骨髓性白血病(AML)是一组高度异质性的血液恶性肿瘤,具有各种细胞遗传学和分子异质性的特征。一些研究表明,AML患者骨髓(BM)微环境的变化在很大程度上促进了白血病发生、抗药性和白血病复发的不同生物过程。AML的BM微环境由白血病细胞、基质细胞、内皮细胞和不同的免疫细胞亚群组成。

            白血病的免疫微环境呈现出免疫失调和抑制,导致抑制性T细胞和效应性T细胞的不平衡,T细胞衰竭,与正常骨髓组织相比,骨髓源性抑制细胞(MDSCs)和支持白血病的巨噬细胞增加。最近关于白血病免疫微环境特征的研究可以帮助寻找新的预后生物标志物和潜在的治疗目标。

    二、材料与方法

    1、数据来源

    1)TCGA:151例的mRNA数据、188例的miRNA数据和140例的甲基化数据;筛选后有97名患者进行研究

    2)独立验证队列,GSE106291数据集(251个样本)

    3)单细胞RNA序列数据集GSE116256,包括16个未处理的样本(D0),被用来揭示免疫细胞类型中枢纽基因的分布

    4)免疫基因集,包括776个基因

    5)实验:55名新诊断的AML患者

    2、分析流程

    1)候选基因的筛选和分层聚类:DESeq2分析mRNA和miRNA表达的差异;使用methylmix软件包来分析基因甲基化水平和mRNA表达值之间的相关性;基于生存相关的免疫基因(SIGs)进行无监督的层次聚类,建立TCGA-AML患者的免疫基因组分类

    2)免疫浸润分析:单样本基因集富集分析(ssGSEA);ESTIMATE算法,计算基质、免疫和估计分数

    3)蛋白质-蛋白质相互作用网络的构建和基因本体论功能富集分析:mRNA相互作用数据来自STRING数据库;使用DAVID进行GO富集分析

    4)生存分析和预后模型的构建:构建Cox回归模型、LASSO、生存分析

    5)scRNA数据集分析:采用Seurat和SingleR软件包来生成统一模态近似和投影(UMAP)图,并揭示枢纽基因在每种免疫细胞类型中的分布

    6)分子对接:使用AutoDock Vina 1.1.2进行分子对接的虚拟筛选,预测最可能的最佳配体;从蛋白质数据库检索了枢纽基因的三维结构;从ZINC15类药物数据库中提取了2115种FDA批准的化合物库

    流程图

    三、实验结果

    01 - 基于对患者预后有显著影响的免疫相关基因的AML分类

            为了更广泛地研究AML中的免疫基因,从TCGA数据库中检索了97个样本的转录组、microRNA和DNA甲基化谱数据并整合了临床信息。采用Cox比例风险回归模型对97个样本mRNA表达数据中的776个免疫相关基因进行分析,确定了98个显著影响AML患者生存的生存相关免疫基因(SIGs)。

            利用98个SIGs的无监督聚类分析,根据基因表达特征,将这97个样本聚类为三个不同的免疫亚型(Im1:免疫群1,Im2:免疫群2,Im3:免疫群3)(图1A)。如免疫基因热图所示,大多数SIG在Im1和Im3群中高表达,但在Im2群中低表达(图1B)。Kaplan-Meier生存分析显示,Im2群组的预后明显好于Im1和Im3群组(图1C)。

    图1 基于98个生存相关免疫基因的AML患者无监督聚类分析

            由于免疫微环境与AML的发生和发展明显相关,因此利用单样本基因集富集(ssGSEA)算法来探索三个免疫群中免疫微环境的差异。结果显示,Im2集群的浸润性免疫细胞比Im1和Im3集群少(图2A)。一致的发现表明,Im2簇的免疫评分明显较低(图2B),而Im2簇的肿瘤纯度明显较高,但Im1和Im3簇的肿瘤纯度则明显较低(图2C)。可以得出结论,免疫浸润少、免疫分数低的患者可能比免疫浸润多、免疫分数高的患者预后好。

    图2 三个AML患者群的免疫功能特征

    02 - 通过对数据综合分析,筛选出19个枢纽基因

            基于Im2群和Im1/3群在免疫浸润和生存趋势上的显著差异,作者将Im2定义为缺乏免疫浸润的亚型(IL型),Im1/3定义为免疫浸润丰富的亚型(IR型)。为了揭示IL和IR亚型之间不同预后的潜在机制,对两种类型的AML患者的mRNA表达谱进行了详细分析。进行差异表达基因分析,发现1936个差异表达基因(DEGs)在IL和IR亚型之间存在显著差异。有42个SIG-DEGs是1936个DEGs和98个SIGs的共同成员(图3A,B)。

            为了阐明IL和IR亚型预后差异的机制,从STRING网站获得了42个DEG-SIGs的相互作用数据,然后用Cytoscape构建蛋白-蛋白相互作用(PPI)网络(图3C)。基因本体论(GO)功能富集分析区分了三个子本体中的一些富集术语:生物过程(BP)、细胞成分(CC)和分子功能(MF)(图3D)。在BP方面,42个DEG-SIGs富集在防御反应、炎症反应和免疫系统过程中。在CC方面,42个DEG-SIGs富集于整合素复合体、质膜外侧和细胞表面。对于MF,42个DEG-SIGs在细胞部分、三级颗粒和整个膜中富集。这些结果可能部分地说明了42个DEG-SIGs影响AML患者预后的潜在机制。

    图3 对TCGA-AML患者的mRNA表达数据集的差异分析

            考虑到白血病发生和发展的复杂机制,接下来进行综合多组学分析,以确定与预后相关的枢纽基因。比较IL和IR亚型之间患者的miRNA表达谱,发现有93个miRNA有明显的差异表达(图4A)。使用DIANO TOOLS/microT-CDS共鉴定了7294个目标miRNA基因(TDEmiRs)。通过综合生物信息学分析,从42个DEG-SIGs和7294个TDEmiRs中选出了IL和IR亚型之间的15个常见差异表达基因(图4C)。

            对mRNA和甲基化特征的综合分析表明,355个基因的mRNA表达水平和甲基化程度之间存在明显的负相关。当这355个甲基化相关基因(MethylCor)与42个DEG-SIGs交叉比对时,发现了6个与免疫浸润相关的常见基因,以及IL和IR亚型之间的差异表达、甲基化和预后(图4B,C )。

    图4 对97名TCGA-AML患者进行多组学分析

    03 - 构建了一个基于5个hub基因的预后模型

            在观察到IL和IR类型之间的免疫浸润、基因表达和临床行为的明显差异后,作者接下来结合microRNA和表观遗传调控数据,建立了一个基于19个免疫相关DEGs的LASSO-Cox比例危害回归模型。利用LASSO模型,建立了一个基于5个枢纽基因的分类器来预测AML的预后(风险分数=-0.086×ADAMTS3 + 0.180×CD52 + 0.472×CLCN5 - 0.356×HAL + 0.368×ICAM3)(图5A, B )。KM图显示了不同亚型患者之间的OS差异(图5C),ROC曲线表明该模型可以有效预测AML的1年、3年和5年的预后(AUC分别=0.82、0.83、0.99)(图5D)。与早期的分析一致,发现TCGA-AML资料的151个mRNA样本有类似的预测性能(图5E, F )。

            为了进一步测试这个模型,从GEO数据库中获得了验证队列(GSE106291),1年、3年和5年的KM图和ROC曲线证实了基于5-hub基因的模型的预后价值(图5G,H)。按疾病分类分层后,结果显示,IL型的风险得分明显低于IR型。这些评价表明,基于5-hub基因的模型可以在传统分配的风险组中识别出一批高危患者,并可指导临床实践。

    图5 COX回归模型的构建

            为了验证基于5-hub基因模型的预后价值,收集了200名新诊断的AML患者中检测到的6575个基因突变和55名新诊断的AML患者(新桥医院)中检测到的38个基因突变。常见的突变基因是DNMT3A、IDH1、NRAS、RUNX1和TET2。在这个模型分类中,通过卡方检验考虑,高风险与RUNX1和TET2的突变有明显关系。对55名有预后信息的患者进行KM分析表明,RUNX1(图6A)和TET2(图6B)突变的患者与预后不良相关,中位生存期较短。

    图6 分析AML中的枢纽基因和突变基因

    04 - hub基因在AML患者的免疫细胞中的多样化分布

            为了探索这5个枢纽基因在AML发病机制中的价值,作者进一步确定了单细胞测序数据集GSE116256,利用Seurat软件包进行聚类,SingleR软件包进行注释,描述这5个枢纽基因在免疫细胞中的分布(图7A)。如散点图(图7B)和小提琴图(图7C)所示,CD52、ICAM3和CLCN5在粒细胞、单核细胞、T淋巴细胞、B淋巴细胞、树突状细胞和NK细胞中广泛表达,而ADAMTS3在这些细胞中很少表达。HAL在粒细胞和单核细胞中高度表达,但在其他免疫细胞中很少表达。据此,我们假设这些枢纽基因通过调节特定细胞的基因表达发挥各种作用。蛋白质图谱数据库中血细胞的枢纽基因表达进一步证实了这一结果。

    图7 枢纽基因的scRNA分析

    05 - 对枢纽基因的最佳匹配化合物的调查

            为了研究最合适的化合物,作者利用CD52、CLCN5、ICAM3的三维结构和ZINC15数据库中2115个FDA批准的化合物进行了分子对接的虚拟筛选。前两个命中的化合物对各自靶点的预测结合亲和力从高到低排列。这些蛋白质和候选化合物的最可能的相互作用的二维可视化表示在图8中。

    图8 二维可视化

    四、结论

            利用多组学分析和验证方法,作者构建并验证了一个新型的、基于5个枢纽基因的模型,该模型可以进行稳健的风险分层,并有利于鉴定AML的预后情况。通过scRNA测序分析,揭示了5个枢纽基因在免疫细胞中的分布。此外,对已知蛋白结构的三个基因(CD52、CLCN5和ICAM3)进行了虚拟筛选,发现了与之结合能量最低的化合物,这为进一步寻找靶向抑制剂提供了思路。

    相关文章

      网友评论

          本文标题:使用多组学生物信息学分析构建AML预后模型

          本文链接:https://www.haomeiwen.com/subject/bkwgxdtx.html