话说本小编上几回都只是在转录组层面讲生信思路,而现在的科研成果更是倾向于利用多组学来研究生物学问题。于是乎,小编此回就想来讲解一篇多组学的生信思路。小编在选文章之前先是考察了一波,发现虽然现在关于多组学的生信思路解读已经有很多了,但对很多连简单的转录组都不是搞得很清楚的普通“老百姓”,他们讲解的多组学又太高端,很多人理解起来有难度。基于以上考虑,小编本次就讲解一篇最简单的甲基化联合转录组的生信思路,研究的是子宫内膜癌,篇名为“A ten-gene methylation signature as a novel biomarker for improving prediction of prognosis and indicating gene targets in endometrial cancer”发表在Genomics杂志上,目前影响因子6.2。
作为表观组学中最最简单的甲基化,目前对其的研究技术已经很成熟了,相应的就有很多甲基化数据。那这里先普及一点生物学知识,甲基化是一种很重要的表观遗传修饰方式,可以发生在基因表达的任何阶段。不仅基因,蛋白,RNA都能发生甲基化修饰。一般情况下基因发生甲基化都会抑制其正常表达,组蛋白发生甲基化会促进基因表达,因此测基因或者蛋白的甲基化水平就能得知基因的表达情况。利用甲基化数据联合转录组的纯生信套路也有很多了,随便一搜都有上百篇。但是此类的大多文章都是在3分左右的水平,那此篇文章为什么能做到6+呢,且听小编慢慢道来。
图1:
图1就没啥好说的,常规套路,放一个流程图让编辑和审稿人一眼便知此篇文章的研究概况。不过这个流程图有一处可取的地方就是,在重点的结果都用亮色突出,这样更能有助于读者抓住重点内容。
图2:
第二幅图就是找差异了,作者分别找出正常和肿瘤组织差异表达的基因和甲基化水平有差异基因,然后取交集,得到132个共有基因。那不用猜也知道这些基因就是受不同甲基化修饰而影响表达水平的基因,行话称之为甲基化驱动基因。最后就是用一个热图展示了这132个基因的表达情况,可以看出只有少部分是在肿瘤中下调的,大多都是在肿瘤中上调的。
图3:
上一步作者得到一百多个基因了,目测有点多,得想办法搞掉一些,然后才能重点研究一些可能有重要功能的基因。如何搞呢?作者没有采取多高端的方式,也就是我们所熟知的LASSO模型,最后成功获得10个基因的模型,分别是:ADCYAP1, CDX2, FAM179B, GABRA2, HIST1H2BE, LGALS9B, OXT1, RIPPLY2, STON1-GTF2A1L, 和 ZNF876B。接下来就看看这些基因在肿瘤和正常中的表达情况吧,正如前面所说的,发现只有LGALS9B和STON1-GTF2A1L是在肿瘤中低表达,其它都是在肿瘤中高表达。这些基因之间有些成正相关,有些成负相关,但都是和cell_cycle相关,也暗示这些基因可能和肿瘤细胞的增值相关。
图4:
既然模型都构建出来了,那肯定就是得和临床特征结合一下喽。不分析不知道,一分析就发现这个模型厉害了,结果发现基于这10个基因构建出来的模型和肿瘤分级呀,年龄呀,生存呀很多指征都相关。作者基于模型对子宫内膜癌患者进行打分后,发现高得分组的患者存活时间更短,单COX和多COX分析也证明这个模型是一个风险模型,并且ROC也都大于0.7。
图5:
Fig5呢也还是临床模型的常规且必须操作,构建Nomogram图用于临床预测生存所使用。矫正曲线也是为了验证这个模型的准确性,从图中可以看出基于这个模型画出的三条曲线和理想值都比较接近。如果有想科普这个矫正曲线的爱学习同志们,可以自行出门左转百度一下,网上对其介绍有很多。接下来是Kaplan-Meier分析,和上一张图一样发现高得分组的患者存活时间最短。ROC验证这个模型对子宫内膜癌3,5和7年患者生存预测的准确性,可以看出都是大于0.7,说明这个模型有一定的准确性。
图6:
故事讲到这里才是本文的一大亮点,说上面都是铺垫一点也不为过,因为上面几个结果都是常规分析和最普通的思路。基于上述构建的预测模型,作者将所有子宫内膜癌患者根据风险值的高度分为两组,接着使用WGCNA的方法筛选出了和风险得分最相关的一个模块。这一步咋一看很突兀,细细想来是犹如德芙一般丝滑。因为很多文章构建模型后,后续分析就绕不开这个模型,都是在这个基础的后续分析,而此篇文章作者就跳出这个圈,对其进行了升华。利用WGCNA挑选出和模型风险得分相关的基因,但又不是构建模型的基因,这样就能发现新的功能分子。在分别和高甲基化和致癌基因取交集后,作者得到了三个基因:MMP12,PHLDA2,SQ00P,这些基因都是在肿瘤中高表达的。
图7:
遥想当年,以上分析估计就是一篇不错的文章了,但时过境迁,水涨船高,在当下各路水军的轰击下,以上分析还无法迈过5分大关。呐,下面作者就做了各种功能实验,对其中的MMP12基因进行了功能验证。都是一些最常规不过的实验了,WB验证MMP12在各种子宫内膜癌细胞系中的表达,CCK8实验验证MMP12对子宫内膜癌细胞系增值的影响,TRANSWELL实验验证MMP12对子宫内膜癌转移功能的影响,划痕实验验证MMP12对子宫内膜癌侵袭功能的影响。然而,作者此时给我们开了一个玩笑,F,G图的图注被吃了,有想见证此神迹的小伙伴可以下载原文进行查看。
这篇文章虽然最后出现了一些小插曲,但是总体思路还是不错的。尤其是用WGCNA来分析模型中的关键基因模块。希望看了此篇解析的小伙伴都能跳出常规思路,别在转录组一颗树上吊着了,这个树上已经没有什么可摘的果子了。甲基化分析直到现在已经非常成熟了,最后给大家推荐一个包,该包的成果于2015年发表于《Bioinformatics》杂志上。文章标题是“MethylMix: an R package for identifying DNA methylation-driven genes”,这个包可以一站式分析所有TCGA的甲基化数据,而且还能出图,想尝试的小伙伴赶紧学起来吧。最后,还是那最熟悉的广告,生信人团队一直专注于最前沿的生信研究动态。生信分析意向表
网友评论