美文网首页生信入门参考资料
获取CpG Islands记录文件的4种方式

获取CpG Islands记录文件的4种方式

作者: 因地制宜的生信达人 | 来源:发表于2018-01-23 11:42 被阅读48次

    不只是CpG Islands坐标的下载,所有的genomic features都是可以这样。

    一般是gtf文件或者bed文件,比如人类hg19上面的所有外显子的坐标记录文件,所有基因的坐标记录文件,所有lncRNA,rRNA等等,我这里拿CpG Islands记录文件下载的4种方式举例子给大家说明一下。

    UCSC下载

    最简单的首推UCSC的table browser(https://genome-euro.ucsc.edu/cgi-bin/hgTables),而且以BED格式文件格式输出(是普通的文本数据)。下面是一个简单的实例,获取mm10的 CpG island 的坐标记录文件,根据你的需求,实时创建一个文件:

    3

    如果你足够聪明的话,应该明白,上面的选项任意组合,是可以现在各种记录文件的,包括基因的坐标,外显子的坐标,转录本的坐标,等等。

    FTP下载

    然后就是直接去ftp网站里面寻找文件下载, http://hgdownload.soe.ucsc.edu/downloads.html. Click on "Human" then "Annotation Database", and finally "cpgIslandExt.txt.gz" 其实就是修改url即可:

    http://hgdownload.soe.ucsc.edu/goldenPath/mm10/database/
    http://hgdownload.soe.ucsc.edu/goldenPath/mm9/database/
    http://hgdownload.soe.ucsc.edu/goldenPath/hg19/database/
    http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/

    在里面搜索文件即可,可以看到,两种方法下载的数据是一样的,而且mouse已知的cpgIsland,要比人类少很多,应该是mouse的研究不够透彻。

    当然ensembl数据库的biomart界面也可以做同样的事情,

    R包转换

    强烈推荐R里面的genomic features相关的包,非常好学,学完了受益无穷!~~

    biomart还有一个biomaRt的R包可以做到,但是这里讲解的是genomic features相关的包。本质上,就是理解TxDb和GenomicRanges对象而已,代码如下:

    library(TxDb.Mmusculus.UCSC.mm10.knownGene)
    library(TxDb.Hsapiens.UCSC.hg19.knownGene)
    library(EnsDb.Hsapiens.v75)
    library(EnsDb.Mmusculus.v79)
    ls('package:EnsDb.Mmusculus.v79')
    library(BSgenome.Hsapiens.UCSC.hg19.masked)
    library(BSgenome.Hsapiens.UCSC.hg19)
    library(EnsDb.Hsapiens.v75)
    annoData <- genes(EnsDb.Mmusculus.v79)
    annoData[1:2];length(annoData)
    ranges(annoData[1:2])
    txdb <- TxDb.Mmusculus.UCSC.mm10.knownGene
    txdb_dump <- as.list(txdb)
    txdb_dump$genes
    

    subtract 2000bp and add 2000 to the CpG island region to get CpG shore regions

    相关文章

      网友评论

        本文标题:获取CpG Islands记录文件的4种方式

        本文链接:https://www.haomeiwen.com/subject/kqcsaxtx.html