美文网首页文章套路
铁死亡纯生信分析套路 肝癌预后signature

铁死亡纯生信分析套路 肝癌预后signature

作者: 概普生信 | 来源:发表于2020-08-06 09:09 被阅读0次

    Hello大家好,今天跟大家分享的是最近发表在International Journal of Biological Sciences杂志(IF:4.858),文章主要讲的是基于铁死亡相关基因构建癌症的预后signature。这样构建预后风险signature的经典方式文章一直有在接收出版,公众号也推过无数,思路清晰简单完整,无外乎是:1、找一个感兴趣的基因集;2、降维筛选预后因子;3、再次降维构建预后风险signature;4、效能验证巴拉巴拉等。话不多说,来跟着仔细读一读吧。

    铁死亡相关基因signature构建预测肝癌总体生存有分析意向(http://gaptechsxr.mikecrm.com/1vdMmqy)生信人WX公众号

     

    一、摘要

    肝癌是一种高度异质性癌症,铁死亡(Ferroptosis)是一种铁依赖的细胞死亡形式(可通过索拉菲尼(sorafenib)诱导铁死亡)。铁死亡相关基因的在肝癌中的预后价值还有待进一步研究。本研究基于TCGA数据集,筛选预后相关的差异因子,通过Lasso-cox回归模型构建了一个包含10基因癌症预后signature,将肝癌划分了高低风险组,高风险组OS显著的低于低风险组(p<0.001)。此外,研究使用ICGC肝癌数据集用于预后signature的验证,同样得到了相似的结果(p=0.001)。ROC曲线分析也验证了signature的预后效能。

    流程图:

    图1:流程图

    二、数据及方法

    数据集

    分析数据集:TCGA-LIHC 371个肝癌患者RNA-seq数据和临床信息(https://portal.gdc.cancer. gov/repository);

    验证数据集:ICGC (LIRI-JP) 231肝癌样本RNA-seq数据和临床信息(https://dcc.icgc. org/projects/LIRI-JP) ;

    TCGA和ICGC数据集临床信息见表1。

    表1:训练集和验证集临床信息表

     

    预后铁死亡相关基因signature的构建和验证

    首先,筛选TCGA肝癌和癌旁间的差异基因DEGs(R包:limma,p-adj<0.05);其次,使用单因素cox回归分析筛选肝癌预后相关的铁死亡因子( 通过Benjamini & Hochberg (BH)校正p值 )。然后与DEGs取交集得到构建signature的候选基因,使用String数据库基于这些候选基因构建PPI蛋白互作网络,研究候选因子的互作关系;最后,使用lasso回归分析进一步筛选肝癌预后因子(R包:glmnet),根据每个候选因子的表达和lasso回归系数计算患者风险评分:score= esum (each gene’s expression × corresponding coefficient)。根据得分中位值将肝癌样本划分为高风险和低风险组,使用R 包:stats进行主成分分析(PCA),使用R包:Rtsnet-SNE进行分组的可视化。每个候选基因的生存分析表达最佳切点由R包:survminer执行,ROC曲线分析则使用R包:survivalROC来评估signature的预测能力。

    功能富集分析

    对高低风险组差异表达基因DEGs进行GO功能、KEGG通路富集分析(R包:clusterProfiler);16种免疫细胞浸润得分和13条免疫相关通路活性得分则由单样本基因集富集分析(ssGSEA,R包:gsva)执行。

    统计分析

    所有的统计分析都基于R 软件 (Version 3.5.3) 或者SPSS (Version 23.0)

    三、结果解析

    1. TCGA识别铁死亡相关差异基因

    81.7%的铁死亡相关基因在癌症和正常中表现出差异,其中27个与肝癌预后相关(图2a)。要注意的是,HMOX1在癌症中显著上调,但是表现出良好的预后,其它基因高表达与更差预后相关,因此剔除该基因,使用剩下的26个铁死亡因子进行后续分析(图2b-c)。基于这些候选因子构建PPI互作网络,GPX4, G6PD和NQO1为核心基因(图2d),铁死亡预后因子相关性分析(图2e)。

    图2. TCGA识别候选的铁死亡相关基因

    二、TCGA数据集构建预后模型

    在Lasso、cox回归分析基于TCGA 26个铁死亡候选因子,最终构建了包含10个基因的预后signature(公式比较复杂这里就不放了,想看的话可以联系客服要文献哦),根据中位数将样本划分高风险(182)和低风险(183)组(图3a)。高低风险样本在临床指标中的分布见表2。PCA和t-SNE分析结果表明signature能很好的将两组样本区分(图3b-c),高风险患者死亡风险显著高于低风险患者,OS生存期也更差(图3e,p<0.001)。ROC曲线评估风险评分的OS预测效能AUC值(1年0.8,2年0.69,3年0.668)。

    图3. TCGA 10-genes signature模型预后分析

    三、预后signature ICGC数据集验证

    基于ICGA数据集对signature包含的10个基因做生存分析,除CARS外都与更差的OS相关。ICGC队列的患者也按照与TCGA队列相同的公式计算的中值分为高低风险组,测试由TCGA队列构建的模型的鲁棒性。得到了与TCGA相似的结果,ICGC高低风险样本在临床指标中的分布见表2。PCA和t-SNE分析结果也表明signature能很好的将两组样本区分(图4b-c),高风险患者较低风险患者相比生存期更短(图4e,p=0.001)。ROC曲线评估风险评分的OS预测效能AUC值(1、2、3年分别为0.68、0.69、0.718)。

     图4.ICGC 10-genes signature模型验证

    表2:TCGA和ICGC队列高低风险组临床指标特征

    四、 10-genes signature模型独立预后价值

    单因素、多因素cox回归分析确定risk score是肝癌OS独立的预后指标。单因素cox回归分析发现risk score 在训练和验证数据集中都是肝癌显著相关的OS预后因子(图5a-b,TCGA p<0.001,ICGC p=0.006)。校正其他混杂因素后,在多变量Cox回归分析中,risk score仍被证明是OS的独立预测因子(图5a-b,TCGA p<0.001,ICGC p=0.005)。

    图5.TCGA和ICGC数据集risk score为肝癌独立预后因子验证

    五、TCGA和ICGC数据集功能分析

    为了阐明risk score相关的生物学功能和通路,对高低风险组的差异基因进行了GO、KEGG富集分析。不出所料,DEGs富集到了铁相关的几种生物学过程(图6a.c)。有趣的是TCGA的DEGs也显著的富集到了许多与免疫相关的生物学过程(图6a),ICGC队列也得到了相似的结果(图6c)。KEGG通路分析表明两个数据集中均富集到了cytokine-cytokine 互作通路(图6bd)。

     图6.GO、KEGG富集分析结果TCGA(ab)、ICGC(cd)

    六、risk score与免疫浸润细胞相关性分析

    为了进一步研究risk score与免疫状态相关性,研究使用ssGSEA量化了免疫细胞得分和免疫相关功能、通路得分。结果表明,TCGA队列中抗原呈递过程相关得分高低风分组中显著差异(P-adj <0.05,图7a-b),高风险有更高cytokine-cytokine 互作通路得分(图7b)。高风险组 II型IFN反应、 I型IFN反应、NK细胞得分更低,免疫检查位点活性、而巨噬细胞、Treg得分则相反(P-adj <0.05,图7a-b)。ICGC队列验证了两个风险组之间的HLA,I型MHC,II型IFN反应,检查点分子,巨噬细胞、Treg细胞的差异(校正后的P <0.05,图7c-d)。特别是,两个数据集中巨噬细胞得分在统计学上差异最大,这与GO分析中的发现是一致的。

     图5. TCGA(a-b)he ICGA(c-d)高低风险分组ssGSEA差异(ac-16种免疫细胞得分,cd-13种免疫功能得分)有分析意向(http://gaptechsxr.mikecrm.com/1vdMmqy)生信人WX公众号

    总结:甲基化TMEscore分析

    到这今天的分享就结束了,图真的是没有很多,有没有没看懂的小伙伴。如果没看懂就该反思反思咯,毕竟这样的预后故事公众号已经反复分享过好多次啦!那小编再重复下吧:要*踩准点(研究癌型特别相关的基因集),要*用好数据(分析+验证样本不要太小结果好一些)就差不多啦。对今天分享感兴趣的你要不要来撩一下咧!

    相关文章

      网友评论

        本文标题:铁死亡纯生信分析套路 肝癌预后signature

        本文链接:https://www.haomeiwen.com/subject/dkgjrktx.html