GEO数据库-ID转换系列(一)
作者:jzhang
前言:我们都知道很多人在进行GEO数据库挖掘的时候,首先遇到的第一个痛点就是探针ID转换成gene symbol的问题,gene symbol因为被大家熟悉所以得到广泛采用。针对此问题,我进行了一个总结贴。
一般ID转换分为以下几个办法:
- 使用GEO数据库提供的GPL文件
- 金标准当然是去基因芯片的厂商的官网直接去下载啦
- 使用bioconductor里面的芯片探针注释包
- 使用探针序列进行序列比对注释(以上办法都不能解决的时候)
今天我们先介绍如何在GEO官网下载注释文件
1.GEO官网
我们可以去官方地址进行下载:https://www.ncbi.nlm.nih.gov/geo/
下面以GPL570为例子进行说明,首先进入官网,在下方窗口数据GPL编号进行搜索,
进入搜索页面。
搜索页面
搜索结果页面:
搜索结果页面
一般在搜索页面都会有对注释文件的表头的描述,芯片注释文件内部也有,但是很多人容易忽视这个地方
image-20200726182901225.png
下面含有下载链接:
image-20200726183855290.png
第二种下载方式,使用ftp地址下载
首先找到ftp地址:https://ftp.ncbi.nlm.nih.gov/geo/
image-20200726184220868.png进来之后,我们发现数据都在这里,注释信息就在platforms:
image-20200726184318777.png然后点击进入,根据编号GPL570,判断在GPLnnn目录下,可以看着这个命名后面都有3个n:
image-20200726184446136.png然后发现有三个文件,https://ftp.ncbi.nlm.nih.gov/geo/platforms/GPLnnn/GPL570/,分别是
-
annot:含有简版的注释信息文件,一般有一些平台是没有这个文件的,文件名字为GPL570.annot.gz
-
miniml:是xml格式的注释文件,这个一般会被分割成好几个,文件也都特别大,一般不用
-
soft:详细版本的注释文件,这个文件也非常大,如果没有annot格式,可以选择这个,但是下载网速不是很友好,文件名字为GPL570_family.soft.gz
总结上面的ftp地址特点,我们可以发现一些特征,比如soft格式文件的地址,那么以后知道了GPL标号,就可以写代码生成ftp下载地址使用迅雷,wget,axel等方式下载啦。
# 以下网址存在一些特点
https://ftp.ncbi.nlm.nih.gov/geo/platforms/GPL15nnn/GPL15207/soft/GPL15207_family.soft.gz
https://ftp.ncbi.nlm.nih.gov/geo/platforms/GPL15nnn/GPL15314/soft/GPL15314_family.soft.gz
https://ftp.ncbi.nlm.nih.gov/geo/platforms/GPLnnn/GPL570/soft/GPL570_family.soft.gz
别着急,现在还有R代码版本的下载方式,如下
# 设置下载方式
options('download.file.method.GEOquery'='auto')
options('GEOquery.inmemory.gpl'=FALSE)
# 加载需要用到的R包
library(GEOquery)
library(Biobase)
# Download GPL file, put it in the current directory, and load it:
gpl <- getGEO("GPL570", destdir=".")
colnames(Table(gpl))
head(Table(gpl)[,c(1,10,13)])
probe2symbol <- Table(gpl)[,c(1,13)]
未完待续,我们后面还有其他的下载方式,针对网速不好,没有简版注释文件等方式,学会任何一种,你都不用再害怕不会对芯片进行ID转换啦。
题外话:关于ID转换,其实还有一个很重要的背景知识需要大家学习,那就是各种数据库的ID,如果你不了解,那么除了看到你熟悉的只知道的gene symobl,有其他数据库的ID可以转换的时候,你却不知道(看见了就跟没看见一样)。小编后续也会陆陆续续介绍哒~
网友评论