前面小编给大家介绍过
合并好的矩阵如下,每一行是一个CpG位点,每一列是一个样本。数值就是特定的CpG位点在相应样本里的甲基化水平。
有粉丝询问,如何将CpG位点跟基因名字对应起来。今天小编就带大家来获取illumina 450K甲基化芯片的注释文件。
首先我们来了解一下CpG位点跟基因的关系。如下图所示,可以将基因的区域分成,TSS1500,TSS200,5‘UTR,1st exon, gene body和3’UTR。TSS是transcription start site,即转录起始位点。那么TSS1500就是转录起始位点上有1500bp。UTR相信大家都不陌生,就是untranslated regions,转录但是不翻译的区域。1st exon就是第一号外显子,gene body就是CDs区域,即coding region。在基因示意图的下面,有CpG位点的分类。分为CpG island(CpG岛),CpG岛上游2kb为N shore,上游2kb-4kb为N shelf,同理下游2kb为S shore,下游2kb-4kb为S shelf。
既然450k甲基化芯片是illumina一款成熟的商业化芯片,那么我们就应该可以从illumina的官网上找到这款芯片的注释信息。下面是相关的产品信息
https://support.illumina.com/downloads/infinium_humanmethylation450_product_files.html 。
下面红框中的文件就是我们需要下载的文件
下载到本地之后,可以用Excel打开。
可以看到每一行是一个CpG位点,UCSC_RefGene_Name列就是CpG位点对应的基因。CpG位点跟基因的具体关系在UCSC_RefGene_Group列可以找到。另外这个CpG位点跟CpG岛的关系可以在Relation_to_UCSC_CpG_Island列找到。
有了这个文件之后,我们就可以对☞R代码合并TCGA数据库中DNA甲基化数据进行注释了。
网友评论