预后分析总能玩出新花样,不久之前生信人公众号推过诊断模型+预后模型的文章,预后风险评分中包含预后相关lncRNA和mRNA的也不少,今天这篇文章通过与疾病相关基因突变分组筛选差异的lncRNA和mRNA,构建共表达网络,然后分别构建了mRNA风险评分+lncRNA风险评分,践行了好事成双的大道理。希望读后你能有所启发
精彩内容
High Expression of the SH3TC2-DT/SH3TC2 Gene Pair Associated With FLT3 Mutation and Poor Survival in Acute Myeloid Leukemia: An Integrated TCGA Analysis
急性髓系白血病中SH3TC2-DT/SH3TC2基因对的高表达与FLT3突变和低生存率相关:一项完整的TCGA分析
Fms样酪氨酸激酶3(FLT3)突变是急性髓细胞性白血病(AML)中最常见的突变之一。但是,FLT3突变对生存的影响目前还没有被充分研究,并且其致白血病的机制仍在进一步研究中。那么该研究的目的就是识别FLT3突变AML中的差异表达基因(DEG),并找到其表达水平与预后相关的关键DEG,随后进行了一系列的分析。让我们一起来看一看作者都做了哪些研究吧~
一.材料和方法
1.1数据收集与预处理
该研究的工作流程图如图1所示。从TCGA中下载了151种人类AML样本的数据,包括从IlluminaHiSeq_RNASeq平台获得的RNA测序数据和临床随访数据,包括年龄,生存时间等。
图1.流程图
1.2 识别差异表达的lncRNA和mRNA
TCGA-LAML数据集由43个FLT3突变AML和108个FLT3野生型AML样本组成。使用R包“ edgeR”来筛选FLT3突变体和FLT3野生型样本之间的差异表达基因(DEG)。使用FDR来矫正多重假设检验的q值。FC≥2以及矫正后的P<0.05具有统计学意义。根据人类基因组GRCh38.93将 基因ID转换为基因symbol。使用R包“gplots”对DElncRNA和DEmRNA绘制了火山图。
1.3 功能富集分析
使用R包“ clusterProfiler”进行KEGG分析。使用GSEA来鉴定SH3TC2-DT或SH3TC2高表达表型显著富集的基因集。
1.4加权基因共表达网络分析
使用R包WGCNA来构建DEG的共表达模块。应用平均连锁法和pearson相关性对TCGA-LAML的样本进行聚类。基因i和j之间的加权邻接矩阵定义为aij = | Cij | β(aij:基因i和基因j之间的邻接关系,Cij:pearson相关性,β:阈值= 4)。将邻接矩阵转换成拓扑重叠矩阵(TOM)。最后,利用DynamicTreeCut算法构建平均连锁层次聚类树状图,将表达相似的基因分为相同的模块。为了确定每个模块的临床意义,计算了基因意义(GS)来量化单个基因与临床特征的关联。模块重要性(MS)定义为模块特征基因(MEs)与基因表达谱之间的关联。然后将不同的MEs与临床特征相关联。
1.5 COX比例风险回归分析
通过单变量Cox比例风险回归评估每个黄色模块基因的预后意义。然后,应用多变量Cox回归分析从与预后相关的lncRNA构建一个3-lncRNA预后风险模型。对于mRNA来说,首先进行了最小绝对收缩和选择算子(LASSO)回归分析来选择mRNA。然后,应用多元Cox回归分析从选定的mRNA构建3-mRNA预后风险模型。根据风险评分中位数,将AML样本分为高风险和低风险组。通过Kaplan–Meier分析来鉴定风险模型的预后价值。通过R包“ survivalROC”绘制ROC曲线来评估风险模型的预测准确性。通过多变量Cox回归分析的结果绘制了列线图以预测总体生存期(OS)。
1.6 SH3TC2-DT / SH3TC2基因对分析
对于单基因来说,应用t检验进行差异表达分析,应用Logistic回归来分析SH3TC2-DT / SH3TC2表达与临床特征之间的关联。为了预测SH3TC2的靶标,通过R包“edgeR”分析了SH3TC2高表达组(n = 76)和SH3TC2低表达组(n = 75)之间的DEG。然后,通过DAVID的“ Protein_Interactions”功能下的“ UCSC_TFBS”模块对DEGs列表进行注释。识别了DEG中显著富集的转录因子(TFs)并应用Cytoscape进行了可视化。
从Vizome和TCGA下载BeatAML数据集的RNA测序数据和临床随访数据,来验证FLT3-ITD和FLT3-野生型AML之间SH3TC2-DT / SH3TC2的差异表达。同样地计算DEG。应用GSE37642-GPL570 AML数据集来验证SH3TC2表达水平与OS之间的关联。根据SH3TC2的中位表达值,将136个AML样本分为两组。应用Kaplan–Meier曲线比较SH3TC2表达高低两组样本之间的OS。以上的这些统计检验和绘图都是通过R和GraphPad Prism 7.0进行。
二.结果展示
2.1 FLT3-突变型和FLT3-野生型AML之间的DEmRNA和DElncRNAs
作者应用R包“ edgeR”对FLT3野生型AML和FLT3突变AML之间进行差异表达分析,共识别到差异表达的619个lncRNA(113个上调和506个下调)和1,428个mRNA(194个上调和1,234个下调)(图2A,B) 。KEGG分析显示DEmRNAs富集到与肿瘤发生密切相关的通路,如Wnt信号通路,PI3K-Akt信号通路和Ras信号通路(图2C),表明FLT3突变在AML发病机制中的可能作用。
图2.在FLT3突变体和FLT3野生型AML之间识别DElncRNA和DEmRNA
2.2 加权共表达网络的构建及与生存相关的模块的识别
应用R包“ WGCNA”来构建DEG的共表达模块,并进一步确定与预后相关的模块。通过平均连锁和Pearson相关性的方法对TCGA-LAML样本进行聚类(图3A)。软阈值参数设置为β= 4(图3B)。
图3.层次聚类树和软阈值估计
合并具有高度相似性的模块后,通过平均连锁层次聚类(图4A)生成了总共27个模块,模块的基因数目大小从31到327个不等。其中非共表达的基因被分组为“灰色”模块,并排除在进一步的分析中。随机选择的400个DEGs的热图显示每个模块中共表达基因的高度拓扑重叠(图4B)。特征基因邻接热图显示了27个共表达模块之间的关系(图4C)。最后,确定了这些模块与临床特征之间的相关性(图4D)。
图4.共表达基因和模块与性状关系的网络构建
其中黄色模块与骨髓高白细胞(WBC)计数和胚细胞百分比相关,但与年龄,性别,突变计数,细胞遗传风险或分子遗传风险无关。并且该模块与较差的无病生存期(DFS)和OS有较高的关联,因此选择进行进一步的分析。
2.3黄色模块中每个基因的预后意义
通过单变量Cox比例风险回归,黄色模块中共有43个基因与OS显著相关。其中,12个lncRNA和31个mRNA的高表达与OS较差相关(图5)。然后对这些lncRNA和mRNA进行进一步的构建lncRNA或mRNA预后风险模型。
图5.基于黄色模块中基因表达的生存分析
2.4 lncRNA预后风险模型的建立
通过多变量Cox比例风险回归分析,作者建立了3-lncRNA预后风险模型来预测AML患者的OS,风险评分=(0.006899×SH3TC2-DT的表达值)+(0.00026×AF064858.1的表达值) +(0.016446×AL133353.1的表达值)(表1)。其中SH3TC2-DT是与预后最相关的lncRNA(表1)。
表1. lncRNA预后风险评分模型
根据风险评分的中位数,148例患者被分为高危(N = 74)和低危(N = 74)组(图6A–C)。高危患者的OS显著更低(图6D)。多因素Cox回归分析显示,年龄和lncRNA风险评分是影响OS的独立预后因素。lncRNA风险评分对生存的影响较大(图6E)。ROC曲线下的面积为0.664,表明该风险模型具有较高的预测价值(图6F)。绘制Nomogram以可视化多元Cox回归分析的结果(图6G)。此外,Kaplan–Meier曲线还证实这三个lncRNA是OS的预测指标(图5A–C)。
图6.lncRNA的Cox比例风险回归分析
2.5 mRNA预后风险模型的建立
为了提高预后风险模型的预测准确性,首先进行了LASSO回归分析,并从黄色模块中具有预后价值的31个mRNA中选择了四个mRNA(SH3TC2,ENPP2,TMEM273和PRDM16)进行进一步分析。通过多变量Cox比例风险回归分析,确定了一个3-mRNA预后风险模型来预测AML病例中的OS,风险评分=(0.000612×SH3TC2的表达值)+(0.000507×ENPP2的表达值)+( 0.000277×TMEM273的表达值)(表2)。
表2.mRNA预后风险评分模型
同样地,根据风险评分的中位数,148例患者被分为高危(N = 74)和低危(N = 74)组(图7A–C)。高危组患者的OS率显著更低(图7D)。多因素Cox回归分析显示,年龄,白细胞计数,分子风险和mRNA风险评分是影响OS的独立预后因素。mRNA风险评分对生存的影响更大(图7E)。ROC曲线下的面积为0.744,表明该风险模型具有较高的预测价值(图7F)。最后,绘制Nomogram以可视化多元Cox回归分析的结果(图7G)。此外,Kaplan–Meier曲线还证实了这三种mRNA是OS的预测指标(图5D–F)。
图7.mRNA的Cox比例风险回归分析
2.6 SH3TC2-DT / SH3TC2基因对是AML的独立预后因素
在这一部分作者研究了SH3TC2-DT和SH3TC2表达的临床意义。该研究表明,SH3TC2-DT和SH3TC2在FLT3突变AML样本中协同高表达(图8A,9A),表明SH3TC2-DT可能在AML发病过程中调节SH3TC2表达。并且SH3TC2-DT或SH3TC2的高表达与OS差有关(图8B,9B)。两者的ROC曲线都显示出较高的预测值(图8C,9C)。多变量Cox回归分析显示SH3TC2-DT和SH3TC2表达均为独立的预后因素(图8D,9D)。此外,应用逻辑回归分析将SH3TC2-DT / SH3TC2基因对与临床特征相关联,发现SH3TC2-DT和SH3TC2的高表达均与较高的WBC计数,分子遗传风险以及FLT3突变有关。SH3TC2的高表达也与年龄有关(表3、4)。
表3. SH3TC2-DT表达与临床特征之间的关联(logistic回归)
表4. SH3TC2表达与临床特征之间的关联(logistic回归)
GSEA显示,伴有FLT3-ITD的AML基因集在SH3TC2-DT和SH3TC2高表达表型中富集(图8E、9E)。
图8. SH3TC2-DT表达与总生存率和基因集富集的关系
图9. SH3TC2表达与总生存率和基因集富集的关
作者发现与干细胞特性或白血病发生相关的TF显著富集于SH3TC2高表达组和SH3TC2低表达组之间的DEG,表明这些TF 可能是AML中SH3TC2的潜在靶标(图10)。
图10. TFs 调控网络
最后就是验证部分了,作者分析了BeatAML(Vizome)数据集,发现SH3TC2-DT和SH3TC2在FLT3突变AML中均显著高表达。此外, GSE37642-GPL570还显示,SH3TC2的高表达与AML中OS差有关。
好啦,这篇文章的内容就这么多啦~总结一下文章是总-分-总的模式:1、筛选FLT3野生型和突变型白血病差异因子,构建lncRNA、mRNA共表达网络,筛选预后marker;2、分别构建lncRNA、mRNA预后风险评分模型;3、筛选疾病关键的lncRNA-mRNA调控轴生存分析;4、外部数据验证。内容该有的都有,故事完整连贯,再加点其它分析(eg:浸润、免疫治疗等)就更完美了。话不多说心动吗,心动不如行动:
网友评论