基因名转换常用的5种方法

作者: 生信大碗 | 来源:发表于2022-11-06 10:06 被阅读0次

Tools:CrossMap用于基因坐标转换
批量转换基因名
R-基因名转换
V1.6.2 python字符串格式化
如何快速获得正确的gene symbol
跨物种同源基因转换（biomaRt和homologene）202
2020-007 Excel处理基因名要小心啊
类型的强制转换
Bioconductor:clusterProfiler
NCBI官方基因组坐标转换工具(二)

最近有同学问大碗，在数据分析时，经常会遇到的一个问题就是我们需要在各种不同的gene ID之间来回转换，搞得人头昏脑涨，于是大碗想通过这次推文给大家归纳一下我们常用到的基因名转换方式，快点码住学起来吧！

我们很熟悉的基因ID号包括gene symbol，Ensembl gene ID，Entrez gene ID等，那你知道official symbol=gene symbol，Entrez gene ID=gene ID吗？今天的分享包括网页版和R包两种方式的基因名转换，快来学起来吧！

（1）Biodbnet数据库

进入Biodbnet主页https://biodbnet-abcc.ncifcrf.gov，如图1，选择“db2db”→选择输入与输出基因的类型→ID list处可以输入单个基因名，也可以输入基因列表，同时检索多个基因id时可以直接从excel中粘贴下来，格式如图2.

图1

图2

还有一种更方便快捷的方法就是直接选择dbFind，选择输出基因ID类型，ID list处输入基因名（图3）。

图3

（2）DAVID数据库

1.登陆网址：https://david.ncifcrf.gov/，依次点击如下:

2.选择基因ID转换：

3.选择转换后的基因名类型、填写物种信息：

4.提交后得到结果：

上面这种网页版的方法虽然简单，但是有时候并不是很方便，因为我们大部分的数据分析是在R中进行的，而很多的时候，使用网页版的方法，可能就需要我们先把基因导出才可以完成。那么接下来我们来看下如何通过R包实现基因名的转换。

（3）clusterProfiler包的bitr() 函数

>library(clusterProfiler)

>library(org.Hs.eg.db)

>data <- read.csv("data.csv") #读入基因文件

>gene<-bitr(data$gene_id,fromType='SYMBOL',toType='ENSEMBL',OrgDb = 'org.Hs.eg.db')

#fromType是指转换前的基因id属于哪一类；toType是指转换后的基因id属于哪一类类型；OrgDb是对应的注释包。通过keytypes(org.Hs.eg.db) 可以查看这个包中有哪些基因ID类型。

（4）AnnoProbe包

>library(AnnoProbe) #用于芯片数据的基因名转换

>gpl <-"GPLxxx" #芯片平台号

>probe2gene <- idmap(gpl,type="soft")

#需要注意idmap函数中的type参数可以选择”bioc” 、”soft” 或”pipe”，其中bioc是来自该芯片平台所对应的bioconductor里的芯片探针注释包的信息，soft是来自GEO数据库里该平台主页的注释信息，而pipe是对GPL平台中soft文件里的探针碱基序列比对后注释的结果。