探针注释文件中没有基因名字怎么办？

作者: 生信交流平台 | 来源:发表于2021-03-12 21:08 被阅读0次

大家都知道一般做生物信息学数据挖掘常用到的两个公共数据库，一个是☞TCGA☜，另外一个就是☞GEO ☜了。TCGA数据库里面主要提供一些癌症相关的数据，虽然疾病类型比较单一，但是数据类型比较齐全，从DNA突变数据，到mRNA表达谱数据，从CNV（拷贝数变异）到甲基化数据，应有尽有。并且这些数据都是对应于同一个样本，这样的好处就是可以做多组学关联分析。GEO数据库里面的数据就包罗万象了，从肿瘤到心血管疾病，从阿滋海默到脑卒中，只要有人提交数据，你就能搜到。至于怎么样检索☞GEO ☜数据库，我前面已经通过三期视频给大家详细讲解过了。

我们经常从GEO数据库下载一些芯片数据，做数据挖掘。虽然现在测序已经很普遍并且价格也已经很便宜了，但是挖掘别人的芯片数据可是一分钱都不用花哦！但是芯片数据有个比较讨厌的地方就是，表达谱矩阵里面使用的都是芯片内部的一个探针ID号，你如果想知道这个探针到底对应哪个基因，你就需要对探针做注释。好在绝大多数GEO里面的芯片数据都提供配套的表达谱矩阵和探针注释文件。但是总有一些特立独行的奇葩，就要让你感到弱小无助。比如说Agilent-045997 Arraystar human lncRNA microarray V3 (Probe Name Version)，这是一款Agilent提供的研究lncRNA的商用芯片。在GEO里面对应的注释文件如下

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL16956

只有一个内部探针ID和探针序列，望穿秋水都找不到探针对应的基因名字。好不容易找到一套跟自己课题相关的数据，难道注定就这样擦肩而过。

不，今天小编就来拯救你的课题。

library(devtools)
#安装注释探针的R包
install_github("jmzeng1314/AnnoProbe")
#加载AnnoProbe这个包
library(AnnoProbe)
#选择要注释的探针类型
gpl='GPL16956'
#得到探针对应的基因名字
probe2gene=idmap(gpl,type = 'pipe')
#展示前10条结果
head(probe2gene)

展示前10条结果

感兴趣的小伙伴也可以试一下其他没有基因注释的探针类型，只需要把gpl='GPL16956'修改成相应的探针平台ID号就可以了。

这里小编也已经为大家准备好了一些比较常用的，但没有注释信息的芯片平台的注释文件，只需要通过R的load()函数加载需要的注释文件就可以了。☞点击获取注释文件☜。

参考资料：

网友评论

本文标题：探针注释文件中没有基因名字怎么办？

本文链接：https://www.haomeiwen.com/subject/bmxtcltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

探针注释文件中没有基因名字怎么办？

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读