美文网首页geo相关
GEO数据库-ID转换系列(一)

GEO数据库-ID转换系列(一)

作者: 信你个鬼 | 来源:发表于2020-07-27 10:44 被阅读0次

    GEO数据库-ID转换系列(一)

    作者:jzhang

    前言:我们都知道很多人在进行GEO数据库挖掘的时候,首先遇到的第一个痛点就是探针ID转换成gene symbol的问题,gene symbol因为被大家熟悉所以得到广泛采用。针对此问题,我进行了一个总结贴。

    一般ID转换分为以下几个办法:

    • 使用GEO数据库提供的GPL文件
    • 金标准当然是去基因芯片的厂商的官网直接去下载啦
    • 使用bioconductor里面的芯片探针注释包
    • 使用探针序列进行序列比对注释(以上办法都不能解决的时候

    今天我们先介绍如何在GEO官网下载注释文件

    1.GEO官网

    我们可以去官方地址进行下载:https://www.ncbi.nlm.nih.gov/geo/
    下面以GPL570为例子进行说明,首先进入官网,在下方窗口数据GPL编号进行搜索,

    进入搜索页面。


    搜索页面

    搜索结果页面:


    搜索结果页面

    一般在搜索页面都会有对注释文件的表头的描述,芯片注释文件内部也有,但是很多人容易忽视这个地方


    image-20200726182901225.png

    下面含有下载链接:


    image-20200726183855290.png

    第二种下载方式,使用ftp地址下载

    首先找到ftp地址:https://ftp.ncbi.nlm.nih.gov/geo/

    image-20200726184220868.png

    进来之后,我们发现数据都在这里,注释信息就在platforms:

    image-20200726184318777.png

    然后点击进入,根据编号GPL570,判断在GPLnnn目录下,可以看着这个命名后面都有3个n:

    image-20200726184446136.png

    然后发现有三个文件,https://ftp.ncbi.nlm.nih.gov/geo/platforms/GPLnnn/GPL570/,分别是

    • annot:含有简版的注释信息文件,一般有一些平台是没有这个文件的,文件名字为GPL570.annot.gz

    • miniml:是xml格式的注释文件,这个一般会被分割成好几个,文件也都特别大,一般不用

    • soft:详细版本的注释文件,这个文件也非常大,如果没有annot格式,可以选择这个,但是下载网速不是很友好,文件名字为GPL570_family.soft.gz

    image-20200726184650763.png

    总结上面的ftp地址特点,我们可以发现一些特征,比如soft格式文件的地址,那么以后知道了GPL标号,就可以写代码生成ftp下载地址使用迅雷,wget,axel等方式下载啦。

    # 以下网址存在一些特点
    https://ftp.ncbi.nlm.nih.gov/geo/platforms/GPL15nnn/GPL15207/soft/GPL15207_family.soft.gz 
    https://ftp.ncbi.nlm.nih.gov/geo/platforms/GPL15nnn/GPL15314/soft/GPL15314_family.soft.gz 
    https://ftp.ncbi.nlm.nih.gov/geo/platforms/GPLnnn/GPL570/soft/GPL570_family.soft.gz
    

    别着急,现在还有R代码版本的下载方式,如下

    # 设置下载方式
    options('download.file.method.GEOquery'='auto')
    options('GEOquery.inmemory.gpl'=FALSE)
    
    # 加载需要用到的R包
    library(GEOquery)
    library(Biobase)
    
    # Download GPL file, put it in the current directory, and load it:
    gpl <- getGEO("GPL570", destdir=".")
    colnames(Table(gpl))
    head(Table(gpl)[,c(1,10,13)])
    probe2symbol <- Table(gpl)[,c(1,13)]
    

    未完待续,我们后面还有其他的下载方式,针对网速不好,没有简版注释文件等方式,学会任何一种,你都不用再害怕不会对芯片进行ID转换啦。

    题外话:关于ID转换,其实还有一个很重要的背景知识需要大家学习,那就是各种数据库的ID,如果你不了解,那么除了看到你熟悉的只知道的gene symobl,有其他数据库的ID可以转换的时候,你却不知道(看见了就跟没看见一样)。小编后续也会陆陆续续介绍哒~

    相关文章

      网友评论

        本文标题:GEO数据库-ID转换系列(一)

        本文链接:https://www.haomeiwen.com/subject/hdzalktx.html