和甲基化有关的。
可以先了解下甲基化:
450k甲基化基础
450K甲基化芯片数据处理传送门
450k甲基化芯片常用工具包:ChAMP和minfi等。
甲基化的一些预备知识
甲基化程度的量化
image.png
DMP(或DML,差异甲基化位点)与 DMR(差异甲基化区域)的关系。如何定义DMR?
一般来说,DMR是通过统计bump来计算出来的,可以参考:ChAMP 分析甲基化芯片数据-差异分析下篇
一般来说,我们还会关注两个方面的信息:DMR与CpG岛的关系,DMR与基因的关系。
DMR与CpG岛的关系:图片来自ShengXinRen
关于DMR或DMP与基因的关系(笔者特别关注甲基化位点的功能注释),简要总结如下。
一般而言,启动子区域的甲基化程度影响基因的转录(但也有报道说第一外显子等位置的甲基化也与基因的转录相关)。如何描述一个基因的转录相关的甲基化程度呢?
image.png
有个论坛上是这么说的(ShengXinRen):
有两种方式,看具体情况具体分析
一、该基因上所有cpg位点的平均值
二、该基因启动子区域cpg位点的平均值
也有人总结如下:
于某个区域的甲基化水平计算方法,不同的方法会得到不同的结果。
1)区域甲基化水平计算方法1-Fraction of methylated cytosines
即:甲基化C占区域内所有覆盖到的C位点的比例
对于图片中的a:区域甲基化水平=10/12;b)甲基化水平=11/12
2)区域甲基化水平计算方法2-Mean methylation level
即:所有C位点的平均甲基化水平,区域内所有甲基化的C的单个位点甲基化水平之和/区域内所有覆盖到的C位点的个数
3)区域甲基化水平计算方法3-Weighted methylation level
即:加权甲基化水平,区域内所有甲基化C位点总的reads数/区域内总的覆盖度
以及这种说法(https://www.biostars.org/p/168142/):
Genes do not have methylation levels, but you can certainly summarize the methylation around a gene (average, median, min, max; 2kb upstream, gene body, first intron). You will need to determine how best to summarize your own data, though (or if summarizing even makes sense for your questions).
另外,补充一个知识(“启动子预测”技能):
启动子是位于结构基因5'端上游的DNA序列,能活化RNA聚合酶,使之与模板DNA准确的结合并具有转录起始的特性。常规启动子以二型为主,核心序列包含TATA box和CAAT box,这两部分组成的序列含有基础转录活性,也就是具备启动子特征,但是表达水平很低,此序列紧挨着转录起始位点TSS,一般位于编码基因5UTR(不是ATG哦)上游的300bp之内。
研究启动子,其实不是研究核心启动子,而是研究启动子在细胞不同状态下表达活性的差异性,这种差异由启动子临近基序调控,研究较多的是增强子、甲基化、转录因子,这些基序位于核心启动子上游居多,所以,常规取包含核心启动子及其上游共计2kb进行研究。
image.png
感觉暂时并没有统一的标准。
可以自己尝试各种界定标准:
1、 TSS上游1500bp、2000bp、5000bp内的甲基化位点的平均值;
2、 TSS上游及下游1500bp、2000bp、5000bp内的甲基化位点的平均值;
3、 TSS上游1500bp、2000bp、5000bp内或5-UTR或第一外显子的甲基化位点平均值。
考虑5000是因为CpG岛的加上两边的Shore一般可达到6kb左右。注意到,5-UTR是第一外显子的一部分。有时候甚至还可以加上是否为CpG岛(或Shore)这个限定。
下图来自:彻底搞清楚promoter, exon, intron, and UTR
image.png第1篇
3.4分,简单的肠癌甲基化分析。主要涉及差异分析、关联分析、功能注释。
解读:如何从甲基化入手,轻松整篇预后标志物的文章
1、数据质控:共485,577个基因座的DNA甲基化数据,在预处理数据和质量控制后,保留了467,971个探针。
2、差异筛选:minfi包筛选DMR(差异化甲基化区域),这一步类似于RNA-Seq的筛选差异基因。结果:最终得到675个差异甲基化区域,其中654个上调。
3、注释和功能
3-1 DMR的注释:这些DMR区域与基因的关系是什么呢?我们利用這些差异甲基化区域的位置与基因的各个元件位置的关系,观察這些差异甲基化区域主要分布在基因的哪些位置上。结果:上调的甲基化区域大多数位于基因的第一外显子,5'UTR,TSS200,TSS150和基因体中,而只有少数UMR位于基因间和3'UTR中区域,同样的下调的甲基化区域也有相同的现象。
3-2 DMR与CpG岛的关系:差异甲基化区域与CpG岛的关系如图,从中可以看出上调的差异甲基化区域主要聚集在CpG岛区域,而下调的差异甲基化区域主要聚集在低CpG岛密度区域。
3-3 DMR与转录起始位点的位置关系:从图中可以看出大部分差异甲基化区域只与一个基因相关,少部分与两个基因相关,分析這些差异甲基化区域与转录起始位点的位置关系如右图,大部都在转录起始位点附近。
3-4 功能分析:为了更好的分析差异甲基化区域的功能,我们根据与差异甲基化区域存在关联的基因作为目标基因集,用這些基因的功能来代表這些差异甲基化区域的功能,使用R软件包clusterProfiler进行GO功能富集分析,使用在线工具KOBAS 进行KEGG富集分析
4、预后标志物筛选
4-1 单因素分析:我们根据每个差异甲基化区域中甲基化位点的甲基化水平分别以中位数作为改差异甲基化区域的甲基化水平,进一步根据差异甲基化区域在各个样本中的甲基化水平的中位数对样本进行划分,高甲基化组和低甲基化组,然后结合病人的预后信息,使用Kaplan-Meier方法分析两组之间的预后差异,最终筛选出有预后差异的差异甲基化区域。共得到了7个预后差异的差异甲基化区域。未进行多因素分析,结果可靠性,也未进行验证,结果可靠性存疑。
4-2 进一步分析预后差异的差异甲基化区域与基因表达的关系我们根据先前的报道,选择差异甲基化区域的100kb以内的转录起始位点对应的基因,分别计算差异甲基化区域的甲基化水平与這些基因的表达水平的皮尔森相关系数,选择p<0.05作为阈值,筛选与预后差异的差异甲基化区域显著表达相关的基因。这个步骤有点意思。
共有五个预后差异的差异甲基化区域有显著表达相关的基因,如图,这些区域中有三个是负相关(基因与DMR的相关性),两个正相关,进一步分别分析了差异甲基化区域的甲基化水平、基因表达水平在Normal和四个Stage的表达分布,从中明显可以看出五个状态下表达水平具有明显的差别。
image.png
5、七个预后差异的差异甲基化区域的甲基化水平的相关性为了观察這些预后差异的差异甲基化区域的甲基化水平之间是否存在联系,我们分别分析了这七个预后差异的差异甲基化区域的甲基化水平的相关性如图,从中可以看出5个UMR之间存在强烈的正相关性,然而,2个HMR和5个UMR之间没有明确的相关性。
总结:
在本研究中,在大量COAD样品中进行了DNA甲基化谱的综合分析,以研究COAD中存在的改变的DNA甲基化模式。COAD样品和邻近组织样品之间的DNA甲基化谱的比较揭示了COAD样品中异常的DNA甲基化变化,并导致675个DMR的鉴定,包括654个高甲基化和21个低甲基化DMR。这些结果与先前的研究结果一致,即DNA高甲基化是结直肠癌的常见特征。
此外,这些DMR可用于有效区分COAD样品和相邻组织样品,这表明DMR可能在COAD的形成中具有致病作用。基因组分析显示,DMR主要位于启动子区域(包括第1 外显子,5'UTR和TSS)和体区,这与之前在其他类型癌症中的观察结果一致。在基因间和 3'UTR 区域中仅发现了一小部分DMR。此外,大多数高甲基化DMR位于CpG岛中,而大多数低甲基化DMR不位于CpG岛或注释基因中。
网友评论