Identification of Angiogenesis-Related Prognostic Biomarkers Associated With Immune Cell Infiltration in Breast Cancer
识别与乳腺癌免疫细胞浸润有关的血管生成相关的预后生物标志物
发表期刊:Front Cell Dev Biol
发表日期:2022 May 6
影响因子:6.081
DOI: 10.3389/fcell.2022.853324
一、研究背景
乳腺癌的发病率在全球范围内不断增加,并已成为妇女最常见的癌症类型。血管生成是一个从原有血管形成新血管的复杂过程。当支持和反对血管生成的因素之间的平衡被破坏时,病理性的血管生成迅速发展,帮助癌细胞适应细胞代谢以应对其高增殖率,使肿瘤更具侵略性。
血管生成调节肿瘤发生的机制非常复杂,没有得到充分的阐明。越来越多的证据表明,血管生成可能通过与肿瘤免疫微环境(TIME)的相互作用参与癌症的进展。免疫监视系统在清除异常细胞和防止癌症发展方面发挥着重要作用。
二、材料与方法
1、 数据来源
1)从TCGA数据库获取1049个原发性乳腺癌和111个邻近正常组织样本的RNA-Seq基因表达数据
2)从GEO数据库下载了GSE7390数据集的198个原发性肿瘤样本和GSE88770数据集的117个原发性肿瘤样本的基因表达数据
3)ARG集从分子特征数据库(MSigDB)中获得
2、 分析流程
1)识别差异表达的ARG:用limma软件包识别了TCGA-BRCA数据集中1049个乳腺癌组织和111个邻近正常组织之间的差异表达基因(DEGs),与从MSigDB数据库下载的ARG取交集后,确定了差异表达的ARG并用于进一步分析
2)识别乳腺癌中关键的预后ARG:单变量Cox比例风险回归分析、多变量Cox回归分析确定了乳腺癌中四个关键的预后ARG(TNFSF12、TNNI3、SCG2和COL4A3)
3)将TCGA队列样本随机分为训练集和验证集
4)风险得分模型和nomogram的构建:根据风险评分的中值,将乳腺癌患者分为高风险组和低风险组;生存分析;使用多变量Cox回归分析构建了一个nomogram,供临床使用
5)生物学功能分析:使用clusterProfiler R软件包来分析高风险组和低风险组之间的GO和KEGG路径富集程度;进行了基因集富集分析(GSEA)
6)预后特征与免疫细胞浸润之间的相关性:CIBERSORT、xCell和单样本GSEA(ssGSEA);计算了差异显著的富集的免疫细胞类型和预后ARG之间的Pearson相关性
7)ceRNA网络的构建:确定低风险组和高风险组之间差异表达的miRNAs和lncRNAs;计算差异表达的miRNAs的表达与四个预后生物标志物的表达之间的相关性,并选择负相关的miRNA-mRNA对;使用miRanda数据库来预测针对四个预后生物标志物的miRNAs
三、实验结果
01 - 基于ARG的预后风险评分模型的构建和验证
在肿瘤和相邻的正常组织样本之间共鉴定了4003个DEGs,包括1241个上调的基因和2762个下调的基因。确定了18个差异表达的ARG,包括在肿瘤样本中相对于邻近正常组织样本的3个上调和15个下调的ARG(图1A)。
此后,通过单变量Cox回归分析探讨了在BC中发现的18个ARG的预后价值。在这个阶段的分析中,不包括临床病理因素(如等级、淋巴结状态和肿瘤大小等)。结果显示,TNFSF12、TNNI3、SCG2和COL4A3与预后显著相关,其中TNFSF12、TNNI3和COL4A3起保护作用,SCG2起危险因素作用(图1B)。利用这四个基因进行多变量的Cox回归分析,以获得更稳健的特征基因。TNFSF12、TNNI3、SCG2和COL4A3仍与预后密切相关,并被确定为关键预后基因(图1C)。此外,根据这四个基因特征构建了一个诊断性的LR模型,发现LR模型在训练集(图1D)和验证集(图1E)中对乳腺癌患者的分类都有良好的表现。
图1 对乳腺癌患者具有预后和诊断价值的ARG的鉴定根据TNFSF12、TNNI3、SCG2和COL4A3的系数,计算出各个患者的风险分数。根据TCGA训练集中患者风险评分的中位数,分为高风险组和低风险组(图2A)。在这两组之间观察到了5年总生存率的明显差异(图2B)。高危组和低危组的TNFSF12、TNNI3、SCG2和COL4A3的表达和临床特征显示在热图中(图2C)。ROC曲线显示,风险评分模型被证明在预测BC患者的生存率方面具有明显的力量。ROC曲线下的面积(AUC)在3年和5年的总生存期中分别为0.643和0.609(图2D)。在GSE7390和GSE88770验证集中也得到了一致的结果。
图2 基于TCGA数据集的乳腺癌患者的四个ARG特征的风险评分模型的开发然后,调查了风险评分与临床特征之间的关系,包括年龄、分期、雌激素受体(ER)、孕激素受体(PR)和人表皮生长因子受体2(HER2)状态。发现,晚期T阶段和HER2阳性状态的乳腺癌患者有较高的风险得分(图3A,B),而其他组的风险得分没有明显差异。此外,作者进一步研究这种基于ARG的评分模型是否能在不同的分子亚型中发挥作用,包括激素受体(HR)阳性/HER2阴性、HER2阳性和TNBC。结果显示,在所有亚型中,低风险患者的生存期明显延长(图3C-E)。
图3 不同乳腺癌亚型的临床病理特征与ARG风险评分和总生存分析的关系02 - nomogram的构建和分析
此外,作者以上述临床特征和风险评分为因素进行多变量分析,构建nomogram(图4A)。进行ROC分析以评估模型的预后价值。模型的曲线下面积(AUC)在1年时为0.865,3年时为0.818,5年时为0.820,7年时为0.767(图4B)。1年、3年、5年和7年的OS概率的校准曲线显示,nomogram预测和实际观察之间具有良好的一致性(图4C-F),表明nomogram的临床应用。
图4 预测乳腺癌患者总生存概率的nomogram03 - 四个预后性ARG和DEGs在低风险和高风险组的生物功能分析
首先,对这四个预后性ARG进行了功能富集分析。结果表明,COL4A3、SCG2和TNFSF12参与了调节内皮细胞增殖和调节上皮细胞增殖的途径。TNNI3、SCG2和TNFSF12参与了血管形态发生、血管发育、脉管发育和管子形态发生的途径。此外,在低风险组和高风险组之间发现了57个DEGs,包括9个上调的基因和48个下调的基因(图5A)。为了探索所强调的分子机制,对DEGs进行了GO分析和KEGG通路富集分析。前20个GO术语和前20个KEGG途径(图5B),包括生物过程(图5C)、细胞成分(图5D)和分子功能(图5E),都显示在柱状图中。此外,GSEA分析显示,DEGs参与了许多免疫相关的生物过程,包括T细胞激活(图6A)、免疫反应的激活(图6B)、白细胞迁移(图6C)和淋巴细胞激活的调节(图6D)。
图5 低风险组和高风险组之间DEGs的功能注释 图6 GSEA分析在低风险和高风险组中富集的生物过程04 - 免疫细胞浸润和预后生物标志物之间的相关性
作者探讨了免疫细胞与乳腺癌中四个预后生物标志物之间的相关性。为了获得更全面的结果,使用不同的方法来评估低风险和高风险组的免疫细胞浸润。如CIBERSORT,记忆B细胞、CD8 T细胞、滤泡辅助T细胞、调节性T(Tregs)细胞和单核细胞在低风险组中明显升高,而静止记忆CD4 T细胞、M2巨噬细胞和中性粒细胞的浸润在高风险组中明显升高(图7A)。TNFSF12与记忆B细胞、单核细胞、M2巨噬细胞和CD8 T细胞明显正相关。TNNI3与静止的记忆性CD4 T细胞呈明显的负相关。SCG2与静止记忆CD4 T细胞和M2巨噬细胞明显正相关,与滤泡辅助T细胞明显负相关。COL4A3与滤泡辅助T细胞、CD8 T细胞和记忆B细胞明显正相关,与中性粒细胞和M2巨噬细胞明显负相关(图7B)。至于xCell和ssGSEA分析,发现12种和15种免疫细胞类型分别在低风险组和高风险组之间有明显的差异分布(图7C,E)。同时,预后生物标志物和差异分布的免疫细胞之间的关系显示在热图中(图7D,F)。
图705 - 构建基于预后生物标志物的ceRNA网络
最后,根据四个预后生物标志物构建了一个ceRNA调控网络。在低风险组和高风险组之间确定了158个不同表达的miRNAs(图8A)。然后,计算差异表达的miRNAs的表达与四个预后生物标志物的表达之间的相关性,共得到294个负相关的miRNA-mRNA对。通过miRanda与预测的miRNA-mRNA对重叠后,共确定了111个miRNA-mRNA对供进一步使用。同时,在低风险组和高风险组之间确定了3,718个差异表达的lncRNAs(图8B)。3,454个lncRNAs的表达与至少一个预后生物标志物呈正相关,并得到713个负相关的lncRNA-miRNA对。通过miRanda与预测的lncRNA-miRNA对重叠后,共确定了518个lncRNA-miRNA对供进一步使用。然后,使用Cytoscape软件,通过过滤掉节点的度数<5,构建并可视化ceRNA网络(图8C)。
图8 基于四个预后生物标志物的ceRNA调控网络的构建四、结论
综上所述,本研究旨在探讨ARG的预后价值及其与乳腺癌患者免疫细胞浸润的联系。作者确定了乳腺癌中四个预后性的ARG生物标志物,并建立了一个准确的风险模型和nomogram来预测乳腺癌患者的生存。此外,还发现免疫细胞浸润可能作为血管生成和乳腺癌之间的纽带。
网友评论