今天跟大家分享的是最近发表在Frontiers in Oncology上的一篇文章,影响因子4.137。之前的也推过相似套路,一点点不一样也能发,欢迎评鉴
The Landscape of Iron Metabolism-Related and Methylated Genes in the Prognosis Prediction of Clear Cell Renal Cell Carcinoma
铁代谢相关基因和甲基化基因在肾透明细胞癌预后预测中的作用
首先让我们通过摘要了解一下这篇文章的主要内容,透明细胞肾细胞癌(ccRCC)对化学疗法和放射疗法具有抵抗力的特征。ccRCC的预后并不乐观,而且存在巨大的多样性。铁代谢紊乱是ccRCC中的常见现象。那么该研究的目的是通过TCGA和GEO数据库中的全面生物信息学分析,鉴定和验证与ccRCC预后不良相关的铁代谢和甲基化的候选预后基因signature。作者根据TCGA中DEGs,筛选与铁代谢相关的预后基因,使用风险评分方法建立了一个预测模型,以预测OS,计算出每位ccRCC患者的风险评分,并根据风险评分将这些患者分为两类。通过Kaplan-Meier(KM)生存率和ROC曲线分析进一步评估了hub基因的预后意义。进行单变量和多变量Cox回归分析以评估每个变量对OS的影响。作者使用来自GEO数据库的独立ccRCC队列验证了25个基因signature的预测能力。使用GSEA分析了hub相关癌基因的特征。最后,作者利用WGCNA来研究基于这些DEG的共表达网络。结果显示,作者鉴定并验证了25个与铁代谢相关的基因和甲基化的基因作为预后的特征,可以将ccRCC患者分为高风险和低风险亚组。KM分析表明,高危患者的生存率明显低于低危患者。用25个基因特征计算的风险评分可在很大程度上预测ccRCC患者1年、3年和5年的OS和DFS。其工作流程如图1。
图1.流程图
一.材料和方法
1.1数据源
作者从MSigDB数据库中提取了16种与铁代谢相关的基因集。去除重叠基因后,铁代谢相关基因集共包含506个基因。
1.2患者数据
作者从TCGA中下载ccRCC的RNA测序,临床信息和DNA甲基化数据。将533名患者随机分配到训练集(n = 350)和验证集(n = 183)。从GEO中下载了ccRCC的一套数据集,GSE22541,其包含24位患者的临床信息和相应的基因表达数据。
1.3 识别hub基因
作者首先从训练集中筛选了候选预后基因。 在TCGA数据库中仅筛选出409个与铁代谢相关的基因。应用350个 ccRCC样本来鉴定训练集中与预后相关的基因。应用p<0.05和FC>0.5识别ccRCC生存时间<1年的患者和生存时间超过3年的患者之间的DEG,并绘制了火山图。然后,作者检测了不同基因位点中CpG位点的甲基化状态。为了筛选与预后相关的基因,使用R中的survival包进行单变量Cox比例风险回归。
1.4风险评分体系的建立
多基因风险评分是一种用于评估个体患病风险的方法。鉴于选定的hub基因,为ccRCC患者建立了风险评分系统。根据所选基因表达水平(exp)乘以从单变量cox回归模型得出的回归系数(β)的线性组合来构建预后风险评分。公式如下:
基于此公式,计算出每位ccRCC患者的风险评分。根据中位风险评分,将患者分为高危和低危组。
1.5统计分析
进行KM曲线分析,并对低风险和高风险组患者进行Log-rank检验。应用ROC分析来评估该风险评分模型对ccRCC患者的预后准确性。
1.6多变量COX分析和分层分析
在训练、验证和GSE22541数据集中,应用多变量Cox比例风险回归分析来评估DEGs是否可以作为患者生存的独立预后因素。采用分层分析法,分析高危组与低危组临床因素的差异。
1.7 GSEA
GSEA是一种基因集富集分析方法,为了阐明25-hub基因表达与肿瘤相关基因特征的关系,利用GSEA进行富集分析。
1.8加权基因共表达网络分析
为了探索hub基因的调控网络,作者使用R包WGCNA对hub基因进行了评估,并创建hub基因及其模块成员的共表达网络,并使用Cytoscape3.6.1可视化网络的特征。
二.结果展示
2.1识别hub基因
为了通过基因表达和甲基化分析找到ccRCC进展中的重要基因,首先,作者使用TCGA数据库中的训练集研究了生存时间少于1年和3年以上的患者之间的差异表达基因。根据DEG的选择标准| logFC | > 0.5,FDR <0.05,共识别到两组之间有79个基因(下调35个,上调44个)差异表达。图2显示了上调和下调的DEG的火山图。
图2.火山图描述了下调和上调DEGs的分布
随后,作者比较了这些患者中基因启动子的DNA甲基化水平。从TCGA数据库下载ccRCC患者的450K甲基化数据,以获得表达和甲基化谱。然后,在通过Z评分法将所有数据标准化后,分析了79个DEG的基因表达与CpG位点甲基化之间的相关性。结果,获得了25个差异表达的基因。然后,作者对训练集中的25个DEG进行了单变量Cox回归分析。在P <0.05的阈值下,作者发现这25个DEG被认为是与生存相关的基因,可能对ccRCC具有重要的预后价值,称为hub基因。表1显示了这25个hub基因的信息。
表1.通过基因表达和甲基化分析筛选出25个基因
2.2预后风险评分系统的构建与评估
为了全面研究这25个基因与ccRCC的预后之间的关系,基于基因表达水平和Cox计算了25个基因的生存风险评分系统。在预后模型中,每位ccRCC患者均根据中值风险评分分为高风险和低风险组。计算每个患者的预后风险评分并将其绘制在图3A中。此外,还介绍了训练和验证集中的生存时间分布(图3B)和hub基因表达水平的相应热图(图3C)。
图3.风险评分分布,患者生存时间分析,hub基因的热图和Kaplan-Meier分析
2.3 Hub基因的诊断价值
为了进一步评估低风险和高风险评分组对预后的综合影响,作者对OS进行了KM曲线分析(图3D)。在训练集中,高危评分组的患者生存率明显低于低危评分组。验证集中,低风险组的患者的OS时间比高风险组的患者明显更长。此外,在训练集中的1年,3年和5年OS中,这25个基因的signature分别实现了0.7700198、0.7248618和0.7595699的ROC值(图4)。
图4.基于3个数据集的风险评分,ROC曲线分析
同样地,这25个基因的特征可以在很大程度上预测ccRCC患者的1年,3年和5年OS,在验证集中,AUC下的面积分别为0.7539926、0.7049583和0.6488136。这些结果表明,用于预测ccRCC患者预后的25个基因signature是可靠的。
2.4 使用独立队列进一步验证25个基因的signature
在这里,为了验证这25个基因的signature在预测ccRCC患者预后中的可靠性,作者使用了来自GEO数据库中的一个独立ccRCC队列进行了进一步验证。在25个DEG中,GSE22541数据集中只有21个DEG。KM生存分析显示,与低风险组相比,高风险评分的ccRCC患者的DFS明显短(图3)。在该独立队列中,AUC下的面积分别为0.8359375,0.8359375和0.7342657,这表明21基因signature对于跨数据集和平台进行DFS预测是可靠且有效的(图4)。
2.5 hub基因的多元Cox回归分析
为了确定hub基因是否可能是与ccRCC患者预后不良相关的独立变量,作者在TCGA和GEO队列中均使用了多变量Cox回归模型。作者采用多变量Cox比例回归分析,为了证明在训练和验证集中,25个基因风险分类可作为ccRCC患者OS的独立和可靠的决定因素。其中包含的变量如表2。
表2.对ccRCC患者进行多因素Cox回归分析
随后,还在GSE22541数据集中进行了多变量Cox回归,证实了21基因signature是ccRCC患者的独立预测预后指标。相关分析显示,高危和低危组的四个临床因素(组织学分级,病理学T,病理学M,病理分期)有显著差异(表3)。
表3.高/低风险组的分层分析结果
2.6 GSEA
为了阐明hub基因表达对ccRCC表达谱的潜在影响。使用GSEA软件对基因本体生物学过程进行了富集分析。GSEA对合并数据集的分析表明更高的风险评分富集到调控SANSOM_WNT_PATHWAY_REQUIRE_MYC SCIAN_CELL_CYCLE_TARGETS_OF_TP53_AND_TP73_DN和AMUNDSON_GAMMA_RADIATION_RESPONSE的基因(图5)。结果表明,铁代谢相关信号的高风险评分癌细胞可能与细胞周期阶段密切相关。上述结果表明组合数据能够反映癌症样本的表达谱和生物学特性。
图5.GSEA分析
2.7 WGCNA
为了探索25个hub基因的协同基因模块,作者使用R中的WGCNA包检查了共表达的基因。作者共发现119个靶基因与这些hub基因在共表达网络中共表达。图6中显示了这25个基因的共表达网络。
图6.25个基因signature的共表达网络
好啦,这篇文章的内容就这么多啦~对代谢感兴趣的小伙伴往下看哦
网友评论