美文网首页
IF:11+ 研究CpG岛甲基化表型病因和致癌转化的泛癌综合分析

IF:11+ 研究CpG岛甲基化表型病因和致癌转化的泛癌综合分析

作者: 桓峰基因 | 来源:发表于2022-05-21 20:12 被阅读0次

      点击关注,桓峰基因

        近几年表观遗传学已慢慢地走向了临床,ctDNA甲基化的研究,未来将成为早筛的利器,那么甲基化到底能做什么分析,怎么才能走向临床呢?有很多基础医学的老师想发一些关于癌症甲基化的文章,苦于没思路,所以就给各位老师安排上,这期分享2022年3月发表在 Brief Bioinform (IF:11.622)的一篇文章利用生信分析结合机器学习研究CpG岛甲基化表型病因和致癌转化的泛癌分析,该文章使用桓峰基因公众号里面的教程即可实现,有需要类似思路的老师可以联系我们!

    摘    要

        许多癌症类型显示出CpG岛的超甲基化,也被称为CpG岛甲基化表型(CIMP),通常与生存变异有关。尽管对CIMP进行了广泛的研究,但这种可变性的病因仍不明确,可能是由于CIMP定义缺乏一致性。在本研究中,我们利用泛癌方法对CIMP进行了进一步的研究,聚焦于癌症基因组图谱(TCGA)中记录的26种癌症类型。我们系统地、不可知地定义了CIMP,排除了任何与年龄、性别或肿瘤纯度相关的影响。然后,我们根据最可变的DNA甲基化值对样本进行聚类,并分析得出的患者群体。我们的结果证实了CIMP在19种癌症中存在,包括胶质瘤和结直肠癌。我们进一步表明,CIMP与8种癌症类型的生存差异相关,在5种癌症类型中,CIMP代表了独立于临床因素的预后生物标志物。通过分析基因和转录组数据,我们进一步揭示了CIMP的潜在驱动因素,并将其划分为四类:直接参与DNA去甲基化的基因突变;组蛋白甲基转移酶突变;不参与甲基化转换的基因突变,如KRAS和BRAF,微卫星不稳定。在19例CIMP阳性癌症中,很少有共同的潜在驱动事件,这些驱动因素仅为IDH1和SETD2突变。最后,我们发现CIMP与肿瘤微环境特征如淋巴细胞浸润密切相关。总之,我们的结果表明CIMP不表现出泛癌表现,相反,CpG 岛DNA甲基化的普遍失调是由异质性机制引起的。

    生信分析流程

    这篇文章分析了泛癌中的甲基化表型,并探究了潜在的候选驱动事件以及与预后和免疫的联系,对于临床有不错的应用潜力,对于癌症甲基化方面的科研也十分有指导和参考价值。我们从文章中提取生信分析流程,看下文章中使用的数据集和生信分析方法,流程图上我们看到大概分为四个模块,因为是泛癌分析,所以方法上一定要有大数据分析的思维,整体把控,如下:

  1. 相关数据准备

  2. 数据集选择:组学

    肿瘤样本数据集:TCGA数据库中的26个癌种ACC,BLCA,BRCA,CESC,COAD,ESCA,GBM,HNSC,KIRC,KIRP,LGG,LAML,LIHC,LUAD,LUSC,MESO,PAAD,PCPG,PRAD,READ,SARC,SKCM,,STAD,THCA,THYM,UCEC.

    正常样本数据集:GSE77871 and GSE32149

    基因集选择:

    Methylation associatedgenes : BAZ2A, CTCFL, DMAP1, DNMT1, DNMT3A, DNMT3B, UHRF1, UHRF1BP1,UHRF1BP1L

    Demethylation associatedgenes :

    TET1, TET2, TET3, TDG,MBD1, MBD2, MBD4, CTCF, IDH1, IDH2

    Histone methylationassociated genes :

    H3K4 methylation:SETD1A, SETD1B, KMT2A, KMT2D, KMT2C, KMT2B, SMYD1, SMYD2, SETD7, SETD9, PRDM9

    H3K9 methylation:SUV39H1, SUV39H2, EHMT2, EHMT1, SETD1B, PRDM1, PRDM2, MECOM, PRDM4, PRDM5,PRDM6, PRDM7, PRDM8, PRDM9, PRDM10, PRDM11, PRDM12, PRDM13, PRDM14, PRDM15,PRDM16

    H3K27: EZH1, EZH2

    H3K36: SETD2, NSD1,WHSC1, WHSC1L1, SMYD2, ASH1L, SETD3, SETMAR

    H3K79: DOT1L

    H4K20: SETD8, SUV420H1,SUV420H2

    Histone demethylationassociated genes:

    H3K4: KDM1A, KDM1B,KDM5A, KDM5B, KDM5C, KDM5D

    H3K9: KDM3B, KDM3A,KDM4A, KDM4B, KDM4C, KDM4D, KDM4E, PHF8, JMJD1C

    H3K27: KDM6A, UTY,KDM6B, JHDM1D, PHF8

    H3K36: KDM2A, KDM2B,KDM4A, KDM4B, KDM4C, KDM4D

    H4K20: PHF8, PHF2

  3. 生信分析方法

  4. 我们从文章的分析流程中提取所有的分析内容,整理出来就11个分析条目,构成了整个文章,本文属于纯生信分析的文章,首先分析甲基化对其进行clustger,之后对其进行机器学习,最后结合突变以及表达,构建预后模型确定独立影响因子,其实工作量还是很大的,发一篇这样文章估计耗时也得2年多时间吧,下面我们就看看哪些分析可以利用桓峰基因公众号的教程来实现,点击分析条码就会跳转到对应公众号的教程,跟着教程做,您也能发11+,如下:

  5. 基于探针beta值标准差(SD)的k-means聚类

  6. 基于过滤后的CpG探针纯度校正DNA甲基化值的光谱聚类

  7. CIMP在CpGislands、shores和shelves的平均甲基化概况

  8. 随机森林分类器确定了10种癌症类型中CIMP的潜在基因组驱动因素

  9. 5. 高低甲基化组之间存在差异表达(DESeq2)

    6. 突变与基因表达之间发生变化的潜在病因

    7. CIMP是多种癌症类型的预后因素(单/多因素)

    8. DNA甲基化组间OS生成分析(Kaplan-Meier)

    9. 构建Cox比例回归模型(Cox)

    10. 筛选既有差异表达又高甲基化的基因KEGG富集分析

    11. 具有CIMP的肿瘤与特异性免疫亚型显著相关(CIBERSORT)

    有老师问我AI算法这块怎么才能提高,我也是自学,并没有老师知道,基于R语言学习机器学习的,强烈推荐这本书,写得非常全面细致,代码清晰,点击下面的链接即可购买!!

    研究结果

    1. 基于甲基化的标准差(SD)分布,进行k-means聚类

     基于探针beta值标准差(SD)的k-means聚类,在26种癌症类型(TCGA)中选择高度可变的探针。

    过滤数据包括性别年龄,位点缺失,非CpGislands,性染色体以及非变量,如下:

    2. 基于过滤后的CpG探针纯度校正DNA甲基化值的光谱聚类

    基于过滤后的CpG探针纯度校正DNA甲基化值的光谱聚类结果的UMAP表示。根据所有显著差异甲基化探针的平均beta值对这些组进行索引。平均轮廓系数显示在每个癌症类型的右上方。所分析的26种癌症类型均表现出DNA甲基化失调;19例显示全球CGI超甲基化模式

    3. CIMP在CpGislands、shores和shelves的平均甲基化概况

    CIMP signature 1 (A)、CIMP signature2 (B)和非CIMP癌症(C)在CpGislands、shores和shelves上26种癌症类型的平均甲基化谱。分别将N_shelf、N_shore、CGI、S_shore和S_shelf 分成10个bin。

    4. 随机森林分类器确定了10种癌症类型中CIMP的潜在基因组驱动因素

    随机森林分类器的特征使用确定了10种癌症类型中CIMP的潜在基因组驱动因素(显示了随机森林优于随机分类器的10种癌症类型的排名)

    5. 高低甲基化组之间存在差异表达(DESeq2)

    CIMP阴性癌症类型的甲基化探针的平均beta值分布癌症类型是根据高甲基化组和低甲基化组之间的平均beta值的差异进行排名的。显著性用Kruskal Wallis检验计算。

    6. 突变与基因表达之间发生变化的潜在病因

    在DNA和组蛋白甲基化和去甲基化基因中,只有异柠檬酸脱氢酶IDH1/2和组蛋白甲基转移酶SETD2突变是CIMP的可复制驱动因子

    7. CIMP是多种癌症类型的预后因素(单/多因素)

    CIMP与患者总生存期相关性的统计学检验,Cox回归进行多因素分析。

    8. DNA甲基化组间OS生成分析(Kaplan-Meier)

    Kaplan Meier表示DNA甲基化组间OS存在显著差异的8种癌症类型的单因素总生存期(OS)分析。(B) Kaplan Meier代表11种癌症类型,DNA甲基化组间OS无显著差异;95%置信区间(CI)用Kaplan Meier曲线周围的彩色区域表示。相关的log-rank检验p值显示为低甲基化组和高甲基化组(L-H),当相关时,低甲基化组和中甲基化组(L-I)和中甲基化组和高甲基化组(I-H)。

    9. 构建Cox比例回归模型(Cox)

    Cox回归模型表示危害有显著关联。所有重要癌症类型的风险比(HR, 95% CI)与每个变量相关。高甲基化组风险比与低甲基化组相比。

    10. 筛选既有差异表达又高甲基化的基因KEGG富集分析

    随机森林分析中选择的基因作为低、中或高甲基化组及其相关通路的潜在驱动因子。

    在高甲基化组中选择了相关探针中存在差异表达和高甲基化的基因,如下:

    11. 具有CIMP的肿瘤与特异性免疫亚型显著相关(CIBERSORT)

    CIMP评分与免疫标记和特征之间的Spearman相关系数。使用CIBERSORT预先计算的CIMP评分和细胞组成之间的Spearman相关系数。

    本文使用 文章同步助手 同步

    相关文章

      网友评论

          本文标题:IF:11+ 研究CpG岛甲基化表型病因和致癌转化的泛癌综合分析

          本文链接:https://www.haomeiwen.com/subject/srxhprtx.html