美文网首页文章套路tcga生信文献
LASSO+SVM筛选乳腺癌预后因子

LASSO+SVM筛选乳腺癌预后因子

作者: 概普生信 | 来源:发表于2020-01-02 09:04 被阅读0次

    今天跟大家分享的是去年十一月份发表在Frontiers in Genetics(IF: 3.517)上的一篇文章,主要是基于乳腺癌的肿瘤特征识别免疫基因相关的预后标志。免疫治疗是癌症治疗的热点,随着PD-1,CDK家族等免疫相关基因抑制剂的相继上市,已经有越来越多的研究者将研究重点放在免疫治疗中。今天的这一篇文章正是开发出与乳腺癌预后相关的标志物,这些标志物在指导患者治疗、识别新的免疫相关分子标志物、建立乳腺癌的个体化风险评估等方面有很大的应用前景。

    Tumor Characterization in Breast Cancer Identifes Immune-Relevant Gene Signatures Associated With Prognosis

    基于腺癌的肿瘤特征识别免疫基因相关的预后标志

    肿瘤免疫疗法因在多种恶性肿瘤中具有显著的临床疗效而受到越来越多的关注。与肿瘤免疫微环境相关的预后标志物在指导患者治疗等方面有很大的应用前景。在本篇文章中,研究者通过基因共表达加权网络分析(WGCNA),单样本基因集富集分析(ssGSEA),多变量COX分析,lasso回归等多种传统生物信息学算法识别出由四个免疫相关基因(APOD, CXCL14, IL33, LIFR)组成的乳腺癌预后标志物。本篇文章的工作流程如图1所示。

     图1.流程图

    一. 数据

    从TCGA数据库获得1109个乳腺癌样本和113个正常样本fpkm表达数据和患者生存数据,将fpkm数据转换成tpm数据。2211个免疫相关基因来自ImmPort和tracking Tumor Immunophenotype数据库。

    二. 基于基因加权共表达网络分析(WGCNA)识别乳腺癌(BC)相关基因

    首先,通过Limma包识别出5058个在乳腺癌患者中发生差异表达的基因,选择其中表达差异最大(标准差)最大的4000(4385)个差异表达基因纳入下一步分析。通过共表达分析,构建共表达网络。基于层次聚类,共识别出9个模块。β= 4时,网络为无标度网络;为合并高度相似的模块,研究者使用动态混合树切割方法,确定阈值和最适模块大小分别为0.25和50。最终识别出与乳腺癌相关的基因模块,其中蓝色和黄色模块与肿瘤状态的相关性最高(图2D),将这两个模块中的2,629个基因纳入下一步分析。

     图2. 基于WGCNA识别乳腺癌相关基因

    三. 基于ssGSEA识别高度免疫浸润的基因

    基于基因表达数据,通过ssGSEA方法对每个乳腺癌患者中24种免疫细胞比例进行富集,并对24种免疫细胞比例进行无监督聚类,将患者分为免疫浸润高,低两组,聚类结果如图3所示。识别两组中发生差异表达的基因(2,951个),这些基因被认为可能与肿瘤免疫微环境和预后有关。此外,研究还对免疫浸润状态与TP53、KRAS、BRCA1和BRCA2突变状态之间的关系进行评估(图3B-E),只有TP53突变状态与免疫浸润相关。

     图3.免疫浸润相关基因的识别

    四. 功能注释与分析

    最终,选择乳腺癌相关基因和免疫相关基因间交叠到的131个基因进行富集分析,富集结果如图4所示,主要富集到细胞因子-细胞因子受体相互作用等通路中。

     图4.乳腺癌相关免疫基因的富集网络

    五. 最佳预后生物标志物的初步鉴定

    为确定单个基因的独立预后影响,对之前筛选出的131个基因进行单因素COX回归分析,识别到12个与预后相关的基因;分别用LASSO和SVM算法进行特征选择,两个方法均识别到10个基因可作为乳腺癌患者预后标志物。将这两种算法得到的基因标志物进行交叠,最终得到8个乳腺癌预后相关基因(图5)。

     图5. Lasso和SVM乳腺癌预后相关免疫基因的特征选择

    六. 外部数据验证

    通过网站(bc-GenExMiner)对这8个基因进行生存分析。结果表明, APOD, CXCL14, IL33, 和LIFR具有较好的预后价值(图6)。研究者通过探究这四个基因表达高低与特定乳腺癌亚型的关联发现,APOD与luminal A型预后相关,IL33表达和Luminal A, Luminal B, HER-2阳性以及三阴性乳腺癌预后相关,CXCL14与Luminal A, HER-2阳性以及三阴性乳腺癌预后相关。因此,研究者这4个基因作为进一步分析的靶点。

     图6. 4个潜在的生物标志物对Luminal A、Luminal B、HER-2阳性乳腺癌和TNBC预后的影响

    七. 生物标志的潜在意义

    为确定基因影响BC进展的可能机制,分别对每个生物标志物进行GO分析。这四个基因主要与趋化因子、淋巴细胞、细胞因子和受体的产生、结合或迁移有关,它们不仅与癌细胞的生长过程密切相关,还与免疫环境密切相关。

    这篇文章的主要内容就是这些,让我们最后来总结一下吧,首先通过基因共表达加权网络分析识别出乳腺癌相关基因,接着通过24种免疫细胞浸润比例的聚类结果将患者分为免疫浸润高-低组,识别出两组种差异表达的基因,即免疫相关基因。选择乳腺癌相关基因和免疫相关基因交叠到的131个基因进行富集分析,并通过基因单因素cox分析对这些基因进行进一步筛选,得到预后相关的免疫基因,分别通过lasso和SVM对这些基因进行特征选择,选择两种方法交叠到的8个基因在外部数据集中验证,最终识别到四个乳腺癌预后相关免疫标志。思路简单,实验过程也很简单,生信小白可以考虑重复下哦。

    今天文献解读到这里就结束了,我们下次再见吧!

    相关文章

      网友评论

        本文标题:LASSO+SVM筛选乳腺癌预后因子

        本文链接:https://www.haomeiwen.com/subject/sqynoctx.html