最近有同学问大碗,在数据分析时,经常会遇到的一个问题就是我们需要在各种不同的gene ID之间来回转换,搞得人头昏脑涨,于是大碗想通过这次推文给大家归纳一下我们常用到的基因名转换方式,快点码住学起来吧!
我们很熟悉的基因ID号包括gene symbol,Ensembl gene ID,Entrez gene ID等,那你知道official symbol=gene symbol,Entrez gene ID=gene ID吗?今天的分享包括网页版和R包两种方式的基因名转换,快来学起来吧!
(1)Biodbnet数据库
进入Biodbnet主页https://biodbnet-abcc.ncifcrf.gov,如图1,选择“db2db”→选择输入与输出基因的类型→ID list处可以输入单个基因名,也可以输入基因列表,同时检索多个基因id时可以直接从excel中粘贴下来,格式如图2.
图1 图2还有一种更方便快捷的方法就是直接选择dbFind,选择输出基因ID类型,ID list处输入基因名(图3)。
图3(2)DAVID数据库
1.登陆网址:https://david.ncifcrf.gov/,依次点击如下:
2.选择基因ID转换:
3.选择转换后的基因名类型、填写物种信息:
4.提交后得到结果:
上面这种网页版的方法虽然简单,但是有时候并不是很方便,因为我们大部分的数据分析是在R中进行的,而很多的时候,使用网页版的方法,可能就需要我们先把基因导出才可以完成。那么接下来我们来看下如何通过R包实现基因名的转换。
(3)clusterProfiler包的bitr() 函数
>library(clusterProfiler)
>library(org.Hs.eg.db)
>data <- read.csv("data.csv") #读入基因文件
>gene<-bitr(data$gene_id,fromType='SYMBOL',toType='ENSEMBL',OrgDb = 'org.Hs.eg.db')
#fromType是指转换前的基因id属于哪一类;toType是指转换后的基因id属于哪一类类型;OrgDb是对应的注释包。通过keytypes(org.Hs.eg.db) 可以查看这个包中有哪些基因ID类型。
(4)AnnoProbe包
>library(AnnoProbe) #用于芯片数据的基因名转换
>gpl <-"GPLxxx" #芯片平台号
>probe2gene <- idmap(gpl,type="soft")
#需要注意idmap函数中的type参数可以选择”bioc” 、”soft” 或”pipe”,其中bioc是来自该芯片平台所对应的bioconductor里的芯片探针注释包的信息,soft是来自GEO数据库里该平台主页的注释信息,而pipe是对GPL平台中soft文件里的探针碱基序列比对后注释的结果。
(5)select 函数
>library(org.Hs.eg.db)
>ID<-select(org.Hs.eg.db,
keys=gene, #数据中的基因名
columns=c("SYMBOL","ENSEMBL"), #这里就是要转换的ID类型
keytype="ENTREZID" ) #这里就是上面key中的gene的所属类型。
好了,今天的分享就到这里啦,如果觉得对你有帮助的话点个赞再走吧~
—END—
网友评论