美文网首页
探针注释文件中没有基因名字怎么办?

探针注释文件中没有基因名字怎么办?

作者: 生信交流平台 | 来源:发表于2021-03-12 21:08 被阅读0次

    大家都知道一般做生物信息学数据挖掘常用到的两个公共数据库,一个是☞TCGA☜,另外一个就是☞GEO了。TCGA数据库里面主要提供一些癌症相关的数据,虽然疾病类型比较单一,但是数据类型比较齐全,从DNA突变数据,到mRNA表达谱数据,从CNV(拷贝数变异)到甲基化数据,应有尽有。并且这些数据都是对应于同一个样本,这样的好处就是可以做多组学关联分析。GEO数据库里面的数据就包罗万象了,从肿瘤到心血管疾病,从阿滋海默到脑卒中,只要有人提交数据,你就能搜到。至于怎么样检索☞GEO数据库,我前面已经通过三期视频给大家详细讲解过了。

    我们经常从GEO数据库下载一些芯片数据,做数据挖掘。虽然现在测序已经很普遍并且价格也已经很便宜了,但是挖掘别人的芯片数据可是一分钱都不用花哦!但是芯片数据有个比较讨厌的地方就是,表达谱矩阵里面使用的都是芯片内部的一个探针ID号,你如果想知道这个探针到底对应哪个基因,你就需要对探针做注释。好在绝大多数GEO里面的芯片数据都提供配套的表达谱矩阵和探针注释文件。但是总有一些特立独行的奇葩,就要让你感到弱小无助。比如说Agilent-045997 Arraystar human lncRNA microarray V3 (Probe Name Version),这是一款Agilent提供的研究lncRNA的商用芯片。在GEO里面对应的注释文件如下

    https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL16956

    只有一个内部探针ID和探针序列,望穿秋水都找不到探针对应的基因名字。好不容易找到一套跟自己课题相关的数据,难道注定就这样擦肩而过。

    不,今天小编就来拯救你的课题。

    library(devtools)
    #安装注释探针的R包
    install_github("jmzeng1314/AnnoProbe")
    #加载AnnoProbe这个包
    library(AnnoProbe)
    #选择要注释的探针类型
    gpl='GPL16956'
    #得到探针对应的基因名字
    probe2gene=idmap(gpl,type = 'pipe')
    #展示前10条结果
    head(probe2gene)
    

    展示前10条结果

    感兴趣的小伙伴也可以试一下其他没有基因注释的探针类型,只需要把gpl='GPL16956'修改成相应的探针平台ID号就可以了。

    这里小编也已经为大家准备好了一些比较常用的,但没有注释信息的芯片平台的注释文件,只需要通过R的load()函数加载需要的注释文件就可以了。☞点击获取注释文件☜。

    参考资料:

    1. TCGA数据库介绍及数据下载☜

    2. GEO数据库介绍及数据下载

    相关文章

      网友评论

          本文标题:探针注释文件中没有基因名字怎么办?

          本文链接:https://www.haomeiwen.com/subject/bmxtcltx.html