美文网首页文章套路
2020年零代码5+纯生信DNA甲基化套路分析,你心动了没

2020年零代码5+纯生信DNA甲基化套路分析,你心动了没

作者: d8d4f55fe0bb | 来源:发表于2020-05-26 10:08 被阅读0次

    146+72本期刊《SCI期刊分析+选刊网站》免费领

    扫描下方二维码免费领取☟☟☟

    用挑圈联靠拆解一篇5+DNA甲基化纯生信套路分析

    大家好,我是汇然。今天为大家带来一篇5分+全生信甲基化分析文章,异常的DNA甲基化是肿瘤的表观遗传标志,能够使表观遗传变化成为癌症诊断及预后指标,可以作为理想的生物标志物应用于临床。全文同样是可以拆解成挑、圈、联、靠四字诀。套路满满,感兴趣的小伙伴们看过来哦~

    本篇文章于2020年3月发表在“Molecular Oncology”,题名为“HPV-related methylation-based reclassification and risk stratification of cervical cancer”。虽然同样有很多利用TCGA数据库挖掘宫颈癌异常甲基化基因的研究,而这篇范文研究专注于HPV感染相关的甲基化位点的分层分析,采用基于DNA甲基化数据的无监督聚类算法识别宫颈癌患者的亚型,并验证了该签名对宫颈癌的分层预后进行。

    本文共有7个Figure和2个Table,下面我就来为大家逐一解读,挖掘DNA甲基化方向的生信研究套路。

    研究背景

    HPV感染在宫颈癌发病机制中起重要作用; 它影响宿主细胞的凋亡、细胞周期、细胞粘附和DNA修复机制,还可以激活免疫反应。HPV病毒与宿主基因组的整合往往发生在转录的基因组区域内。异常的DNA甲基化是肿瘤的表观遗传学特征,通过沉默抑癌基因和激活癌基因导致肿瘤的发展和进展。

    先前的研究表明HPV可以通过上调DNA甲基转移酶而增加宿主细胞基因组的甲基化,并抑制抑癌基因的转录。因此,作者推测在宫颈癌中,整合的病毒DNA可能发生异常的DNA甲基化影响肿瘤进程。这一DNA甲基化特征可能使表观遗传变化成为癌症诊断或作为预后指标的理想和临床应用的生物标志物。

    数据解构

    挑——鉴定和筛选HPV相关甲基化位点

    作者通过数据预处理去除了未检测到的甲基化探针后,共从TCGA甲基化数据中提取了312个样本(309 CC和3个相邻的正常样本)和372,137个DNA甲基化位点。其中包含178个HPV感染样本(169个HPV阳性和9个HPV阴性CC样本)和378,494个DNA甲基化位点。使用“ChAMP”R包筛选高甲基化位点,以adj.p-value< 0.05和|deltabeta| > 0.2为限定条件。Fig.1通过火山图的形式展示了差异甲基化位点(DMPs)与基因的关系,分别以肿瘤和正常分组识别到35678个DMPs,以及以宫颈癌HPV阳性和阴性分组筛选的48190个DMPs。通过交叉分析共获得9,249个HPV相关的DMPs。

    (PS:这里简单介绍一下每个样本的beta值:一般可以将bata值大于0.6的位点认为是fully methylated,而bata值小于0.2的位点认为是fully unmethylated;本篇范文选择了差异结果中以两个组的差值大于0.2 作为高甲基化筛选标准。)

    为了进一步筛选与总生存率(OS)相关的DNA甲基化位点,还是经过了“靠”临床意义。作者对294例具有生存数据的宫颈癌患者平均随机分为训练集和测试集,分别用于建立预后特征,以及验证其预测的有效。首先采用单变量Cox回归分析了294例患者中DNA甲基化水平与OS的关系,在训练数据集中以p<0.01筛选出191个HPV相关的具有预后价值(OS)的甲基化位点(P<0.05)。根据以上位点信息的beta值进行无监督聚类分析,294例宫颈癌患者被分为三组——Cluster 1:高甲基化组;Cluster 2:中等甲基化组;Cluster 3:低甲基化组(Figure 2a)。与中、低甲基化组相比,高甲基化表现出更高的总生存期(P = 0.009, Figure 2b)。并且主成分分析(PCA)显示,三个聚类的样本之间得到很好的区分(Figure 2c)。

    圈——分析不同宫颈癌患者亚组潜在的生物学过程和机制

    作者将高甲基化分组分别与中、低甲基化分组比较,使用GSEA进行相关生物过程和机制分析,结果展示于Fig.3。

    联——研究可能与不同甲基化分组的生存结果相关的基因组改变

    这一部分作者通过分析三个甲基化聚类中276例具有有效的体细胞突变数据的宫颈癌患者的突变谱和CNV分析,确定潜在的药物靶点,以逆转中、低甲基化的不良预后。Fig.4a-c显示了三个聚类中最常突变的前30个基因。并将三个簇中10个常见致癌通路的突变频率展示于Fig.4d及补充图中。

    接下来作者使用GISTIC 2.0评估三个集群中282例患者的体细胞CNV的差异。Fig.5中显示了三个集群中明显复发的局灶性扩增(红色)和缺失(蓝色)的峰值的染色体位置。q值< 0.25(绿线)的区域被认为有显著变化。

    靠——构建HPV相关甲基化预后模型及临床相关性验证

    第一部分:构建HPV相关甲基化预后模型

    作者将上述单变量Cox回归分析在训练集中确定的20个具有预后意义的HPV相关甲基化位点(P<0.01,Fig.S10a)。随后Lasso-penalized Cox分析利用AIC准则精炼简化统计模型的变量集合,以降维解决共线性问题,并,在20个HPV相关的甲基化位点中选择了11个(Fig.S10b)。最后进行逐步多变量Cox回归分析,确定6个甲基化位点(cg23170347, cg16376000, cg13759702, cg01727408, cg05008070, cg07227049),构建最佳预后模型cc。Table 1列出了6个HPV相关甲基化位点的染色体位置、p值以及在多变量Cox回归分析中得到的系数。根据这6个HPV相关甲基化位点的DNA甲基化水平和系数计算确定风险值用于构建模型,并使用“survival” R包进行分层,评估高危和低危组间的OS差异。最后使用“timeROC”R包计算曲线下面积(AUC) 验证该签名的预测能力。cg13759702的DNA甲基化水平与高风险性相关,其余5个DNA甲基化水平与低风险性相关。这5个甲基化位点的甲基化水平与分别对应的基因DACT1、VRK2、MELTF、FGF12和PRICKLE2的表达呈显著负相关(Fig.S11)。

    (Fig.S10)

    (Fig.S11)

    最后,在训练集和测试集中进行生存分析,以评估HPV相关甲基化特征的预测能力。在训练数据集中,低风险患者比高风险患者表现出更好的OS(Fig.6a)。在测试集和整个数据集中同样观察到类似的结果(Fig.6c、e)。三者分别的5年和3年ROC曲线结果同样支持HPV相关甲基化可以作为临床诊断价值(Fig.6b、d、f)。

    此外,作者还测量了整个数据集中高风险和低风险患者的6个甲基化位点的DNA甲基化水平,发现高危患者cg13759702的甲基化水平显著升高,其他四个甲基化位点的甲基化水平显著降低,cg01727408除外(Fig.S15)。这一步应该是审稿时要求补充的,也是本研究的充分论证中比较值得学习的内容。

    (Fig.S15)

    Ps:这里我也给大家总结一下,当我们筛选出大量数据后需要进行以下三步:1.数据的切分和清洗。在统一数据量纲及减少相关性后,这里就可以通过“靠”临床意义来筛选具有预后生存价值的数据;2.数据的建模预测。在实际建模过程中,我们不会将所有的数据全部用来进行训练模型,因为相比较模型数据集在训练中的表现,我们更关注模型在训练集,也就是我们的模型没有遇到的数据中的预测表现。如逻辑回归、线性回归、岭回归、随机森林模型,以及范文中提到的lasso回归模型等,以进一步确定相关基因;3.数据的评估和验证。在测试集和验证集中进行ROC曲线、风险曲线和热图等分析;依据风险阈值,分析高危、低危组生存相关性用于验证。

    第二部分:HPV相关甲基化特征在OS预测中与临床病理因素的独立性

    作者采用单因素和多因素Cox回归分析HPV相关甲基化特征是否为CC患者OS的独立预测指标。在多变量分析中,HPV相关甲基化特征可以作为整个数据集的独立预后指标。同时,Table 2显示该特征是年龄、临床分期、组织学分级、T分期、淋巴结转移和肿瘤状态的独立预后因素,且对宫颈癌患者预后的分层有效。

    第三部分:宫颈癌患者不同亚组的免疫浸润情况

    作者利用ssGSEA估计三种甲基化簇中单个样本的免疫浸润异质性,以比较低危与高危宫颈癌患者机体免疫细胞比例的差异,Fig.7以热图展示了。TCGA 中294例宫颈癌患者的24个免疫细胞的相对比例,并将三组中HPV状态、临床分期、肿瘤状态、组织学分级、T/N/M分期、组织学类型、甲基化群集,以及风险值纳入分析,反映了不同亚组间肿瘤浸润免疫细胞情况。并对三种甲基化簇的估计值、免疫评分、基质评分、肿瘤纯度进行比较。结果表明,与其他两个簇相比,高甲基化分组具有不同的免疫表型,以较少的免疫浸润和较低的免疫激活为特征。

    总结

    本篇范文是一篇典型的纯生信TCGA数据库挖掘套路文章,分别从TCGA数据库获得306、289和297例宫颈癌患者的RNA测序基因表达、体细胞突变和CNV谱。通过参与宫颈癌进展和HPV感染的表观遗传学改变,探索了HPV相关的dna甲基化特征,以识别宫颈癌患者中不同的亚型,并对宫颈癌的预后进行分层。全文从筛选和鉴定具有预后生存价值的差异甲基化位点(“挑”),随后富集分析不同宫颈癌患者亚组间潜在的生物学过程和机制(“圈”),并联系可能与不同甲基化分组的生存结果相关的基因组改变情况,分析三种甲基化聚类中最常突变的基因集合(“联”)。最后构建HPV相关甲基化预后模型,并验证临床相关性及宫颈癌不同亚组免疫浸润情况(“靠”)。这一套论述逻辑严谨,思路清晰,论证范围广,构建了HPV相关甲基化预后模型。通过学习这篇5分+纯生信套路文章,我们需要加深对于“挑”、“圈”、“联”、“靠”四个分析层面是如何运用于生信套路结构框架的理解,并了解构建预后模型在“靠”临床意义这一层面的研究方法。

    如果对这篇文章感兴趣,想进一步研究,小伙伴们可以通过回复“汇然0524"获取文章全文。

    好了,小伙伴们~本次纯生信套路文章结构就到这里啦,我们下期再见吧,拜拜

    相关文章

      网友评论

        本文标题:2020年零代码5+纯生信DNA甲基化套路分析,你心动了没

        本文链接:https://www.haomeiwen.com/subject/yjlmahtx.html