美文网首页
如何获取450k甲基化芯片的注释信息

如何获取450k甲基化芯片的注释信息

作者: 生信交流平台 | 来源:发表于2022-11-16 21:51 被阅读0次

    前面小编给大家介绍过

    如何从TCGA数据库下载DNA甲基化数据

    R代码合并TCGA数据库中DNA甲基化数据

    合并好的矩阵如下,每一行是一个CpG位点,每一列是一个样本。数值就是特定的CpG位点在相应样本里的甲基化水平。


    有粉丝询问,如何将CpG位点跟基因名字对应起来。今天小编就带大家来获取illumina 450K甲基化芯片的注释文件。

    首先我们来了解一下CpG位点跟基因的关系。如下图所示,可以将基因的区域分成,TSS1500,TSS200,5‘UTR,1st exon, gene body和3’UTR。TSS是transcription start site,即转录起始位点。那么TSS1500就是转录起始位点上有1500bp。UTR相信大家都不陌生,就是untranslated regions,转录但是不翻译的区域。1st exon就是第一号外显子,gene body就是CDs区域,即coding region。在基因示意图的下面,有CpG位点的分类。分为CpG island(CpG岛),CpG岛上游2kb为N shore,上游2kb-4kb为N shelf,同理下游2kb为S shore,下游2kb-4kb为S shelf。


    既然450k甲基化芯片是illumina一款成熟的商业化芯片,那么我们就应该可以从illumina的官网上找到这款芯片的注释信息。下面是相关的产品信息

    https://support.illumina.com/downloads/infinium_humanmethylation450_product_files.html

    下面红框中的文件就是我们需要下载的文件


    下载到本地之后,可以用Excel打开。


    可以看到每一行是一个CpG位点,UCSC_RefGene_Name列就是CpG位点对应的基因。CpG位点跟基因的具体关系在UCSC_RefGene_Group列可以找到。另外这个CpG位点跟CpG岛的关系可以在Relation_to_UCSC_CpG_Island列找到。

    有了这个文件之后,我们就可以对☞R代码合并TCGA数据库中DNA甲基化数据进行注释了。

    相关文章

      网友评论

          本文标题:如何获取450k甲基化芯片的注释信息

          本文链接:https://www.haomeiwen.com/subject/yoduxdtx.html