美文网首页DNA甲基化甲基化芯片生信分析流程
ChAMP(川普)包分析甲基化450k及EPIC芯片数据R语言代

ChAMP(川普)包分析甲基化450k及EPIC芯片数据R语言代

作者: 医科研 | 来源:发表于2019-01-06 09:26 被阅读27次

    前两期中我们做了一些前期的铺垫和介绍,提到(加链接),这一期我们实践操作,使用ChAMP软件包分析甲基化芯片数据,再现从软件的安装到分析的整个过程,在分析数据之前我们有必要提及两篇文章:

    1) ChAMP: 450k Chip Analysis Methylation Pipeline https://doi.org/10.1093/bioinformatics/btt684

    image.png

    2)ChAMP: updated methylation analysis pipeline for Illumina BeadChipshttps://doi.org/10.1093/bioinformatics/btx513

    image.png

    首先在2013年基于R语言的软件包ChAMP发布在Bioconductor平台,其目的主要为分析甲基化450k芯片数据,而后在2017年12月发布了更新版本的ChAMP,更新版本支持新芯片EPIC的数据分析,并且增加了很多其它功能,并且软件还在不断根据反馈更新,该软件提供差异甲基化位点(differentially methylated positions (DMPs),差异甲基化区域(differentially methylated regions(DMRs), 以及更大区域的differentially methylated genomic blocks (DMB),优秀的可视化功能。论文的第一作者是上一期我提及的Yuan Tian 博士,单位是中国科学院上海生命科学研究院,小编的偶像级人物,坦白讲,能写出这样的主流分析软件真的很难得。下面进行数据分析:

    在数据分析之前呢,小编首先默认你已经安装了R软件,并会一些简单的代码,会从GEO数据库下载数据了,如果还不熟悉,可以在下方留言,如果有必要,我们可以花一期的时间写一写:

    
    ##1-首先就是安装并加载ChAMP包
    
    source("https://bioconductor.org/biocLite.R")
    
    biocLite("ChAMP")
    
    library("ChAMP")
    

    注意这一步骤由于R软件及相应包的版本问题,猜测可能很多小伙伴会安装失败,坦白讲,小编当时也安装了许久,也没有特殊的解决办法,可#以先安装大多数包,然后注意报错的内容,缺少什么包就安装什么,总能解决的。有安装问题可以下方留言,或者添加小编微信,欢迎一起交流。

    
    ##2-载入数据,为了方便起见,作者内置了可用于测试的数据
    
    testDir=**system.file**("extdata",package="ChAMPdata")
    
    myLoad <- **champ.load**(testDir,arraytype="450K")##内置450k测试数据集
    
    myLoad <- champ.load(testDir) #载入数据
    
    ![image.png](https://img.haomeiwen.com/i15721061/356597558133f9e7.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
    
    ![image.png](https://img.haomeiwen.com/i15721061/62e12b105a3e4347.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
    
    myLoad$pd ##查看数据结构,简单的讲数据分为两组(C1-C4,T1-T4)
    
    
    ![image.png](https://img.haomeiwen.com/i15721061/c2b897158f7d6449.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
    
    

    流程介绍

    image.png image.png
    ##下面要放大招了,ChAMP提供打包好的一体化函数,就是不用设置参数,不需要理解复杂的中间流程,掌握某个函数,一个函数解决整个分析流程:
    
    champ.process**(directory = testDir)##我称之为必杀技
    
    ![image.png](https://img.haomeiwen.com/i15721061/d67a4f09a58fae03.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
    
    
    ##当你看到这个界面时,就可以先去喝杯茶了,然后等你回来就,你想要的都会有啦:
    

    下面展示一些我们得到的图:

    image.png
    image.png
    image.png
    image.png
    `

    总之就是会有一系列的质控图,结果自动生成在文件夹中。

    ##作为补充,也可以使用单独的函数分析,例如:
    
    CpG.GUI(CpG=**rownames**(myLoad$beta),arraytype="450K")
    
    ![image.png](https://img.haomeiwen.com/i15721061/ebc4e665a64fa256.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
    

    以上我们展示的是最简单的一种方式,就是默认你自己有甲基化原始数据.IDAT文件以及samplesheet,可以考虑使用一体化函数去分析数据,然后再自己写出你所需要的结果就好了。当然,这样一体化过程可能能满足一部分小伙伴,如果有更高的要求,小编还是建议仔细阅读Userguide,学会自己设置参数,根据自己的要求,实现灵活多样的分析,如果你用心去体验了,就会发现其实ChAMP的函数都已经封装好了,很容易看明白的,然后就各取所需,愉快的做科研吧。

    除了分析自己已有的数据,其实我知道还有一部分小伙伴,是从公共平台下载已有数据重新分析,有时可能只有矩阵数据,一般我们认为是level 3的数据,比如从TCGA,GEO数据库下载的,有时可能没有原始数据,ChAMP也是支持的,可以导入数据,当然这就需要仔细的阅读Userguide,及相应函数的使用。这里由于篇幅所限,不可能事无巨细讲到每一个细节,每一个函数,本文的作用只是作为灯塔,指引方向。

    注意事项

    1. 在学习使用ChAMP分析数据的过程中,小编曾遇到过一个问题,准备samplesheet时请注意不要使用excel打开,一旦打开就可能会使samplesheet与读取的矩阵数据不完全一致,困扰了医学汪的小编好一段时间,最后在Yuan Tian博士的建议下,使用写字本打开才解决的。

    2. 甲基化数据量非常大,对硬件要求相对比较高。其实这一点很容易理解,常规的表达谱芯片大概就40000多个探针,然而甲基化芯片450k就是45万,850k就是85万了,明显是10几倍的差异了,并且计算差异甲基化区域的算法对内存占用较大。所以,是时候让老板更新配置啦,大批量数据肯定是需要服务器的,这类问题小编就也不懂啦。

    相关文章

      网友评论

        本文标题:ChAMP(川普)包分析甲基化450k及EPIC芯片数据R语言代

        本文链接:https://www.haomeiwen.com/subject/gxsrrqtx.html