生信数据库ID大总结&ID转换方法

作者: 大李_1ba1 | 来源:发表于2022-07-18 11:12 被阅读0次

首先介绍下各个ID的转换，比较便捷的有：

1.在线的：
Uniprot ： ID mapping 工具，可以批量转换和下载https://www.uniprot.org/id-mapping
DAVID： Gene ID Conversion Tool https://david.ncifcrf.gov/conversion.jsp
g:Profiler ：https://biit.cs.ut.ee/gprofiler/convert
2.R包：(关于这两个包已经有很多中文教程，自行搜索一下，不做赘述)
clusterProfile包（基于org.****.eg.db文件）
org.****.eg.db包（org的包总共有19个，包的全称和物种相关，使用时应注意加载和数据对应物种的包）

1  org.Ag.eg.db  Anopheles  
2  org.At.tair.db  Arabidopsis  
3  org.Bt.eg.db  Bovine 
4  org.Ce.eg.db  Worm  
5  org.Cf.eg.db  Canine  
6  org.Dm.eg.db  Fly  
7  org.Dr.eg.db  Zebrafish  
8  org.EcK12.eg.db  E coli strain K12  
9  org.EcSakai.eg.db  E coli strain Sakai  
10  org.Gg.eg.db  Chicken  
11  org.Hs.eg.db  Human 
12  org.Mm.eg.db  Mouse 
13  org.Mmu.eg.db  Rhesus 
14  org.Pf.plasmo.db  Malaria  
15  org.Pt.eg.db  Chimp  
16  org.Rn.eg.db  Rat  
17  org.Sc.sgd.db  Yeast  
18  org.Ss.eg.db  Pig  
19  org.Xl.eg.db  Xenopus

下面就是各个ID的简介啦！

版权声明：本文为CSDN博主「Candle_light」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/Candle_light/article/details/83098835

链接文章里作者写的非常详细，对于各个ID介绍很清楚，建议对各ID不是很了解的还是去把原作者的文章看一遍。这里仅将各个ID的总结和示例做了摘要，以便查询。

1.Entrez Gene数据库

Entrez Gene ID又可以称为Entrez ID ，也是我们通常所说的Gene ID 。它是来源于Entrez Gene数据库的编号系统。每个Gene数据库中的记录数据都会被分配一个唯一的Gene ID编号。编号的格式就是一串数字，例如：7157，2131这样的。同时，Gene ID的数字并不是连续分配的（也就是说有间隔）。
Gene ID的分配规则：Gene ID通常被分配给RefSeq数据库中注释为基因的对象，当然，并不是所有的Gene ID都基于RefSeq，如果RefSeq数据库中没有记录，也可以指定GeneID。

注意，Gene ID编号的命名是具有物种特异性的（例如，编码人的肌营养不良蛋白的基因和编码小鼠肌营养不良蛋白的基因，它们俩的Gene ID在Gene数据库中编号是不一样的，分别是：1756 和 13405）。

2.HGNC(HUGO Gene Nomenclature Committee，人类基因命名委员会)

HUGO Gene Symbol：HUGO Gene Symbol(也叫做HGNC Symbol，即基因符号)是HGNC组织对基因进行命名描述的一个缩写标识符（如:TP53），这些基因符号都是唯一的。
Gene Name：Gene Name是经过HGNC批准的全基因名称;对应于上面批准的符号（Gene Symbol）。例如TP53对应的Gene Name就是：tumor protein p53 。
HGNC ID：HGNC ID是HGNC数据库分配的基因编号，每一个标准的Symbol都有对应的HGNC ID 。我们可以用这个编号，在HGNC数据库中搜索相关的基因。例如：HGNC:11998

注意，有时候HGNC会对一些已经命名过的基因进行重新审查和重新命名，以确保新的基因命名在描述基因功能方面更加的准确。当一个基因被HGNC分配了新的Gene Symbol时，它之前的命名，会被当作同义词继续使用，所以一般建议使用HGNC ID而不是HGNC Symbol来作为我们处理数据中的唯一标识符。

3.Ensembl数据库

Ensembl基因组数据库项目是欧洲生物信息研究所和Wellcome Trust Sanger研究所之间的一个联合科学项目，该项目于1999年启动，以应对即将完成的人类基因组计划。Ensembl旨在为遗传学家，分子生物学家和其他研究我们自己的物种和其他脊椎动物和模式生物的基因组的研究人员提供集中资源。Ensembl ID 是最常见，生信分析最常接触到的ID号了。
Ensembl Stable ID是来源于Ensembl数据库的编号系统。它的命名由三部分组成：[species prefix][feature type prefix][a unique eleven digit number]. （根据不同物种设置的前缀+数据所指类型【例如，蛋白质，基因】+一段特定的数字），所以一个小鼠的基因在Ensmebl中的编号命名就应该是：ENSMUSG########### 。有时可以有不同的版本, 则在 Ensembl ID 后面加上小数点和版本号（例如：ENSG00000223972.5）。Ensembl Stable ID版本号的更替是遵循一定规则的，具体可看：https://asia.ensembl.org/info/genome/stable_ids/index.html 和 https://asia.ensembl.org/info/genome/compara/stable_ids.html

注意，Ensembl的数据是会更新的，但是一般情况下，如果某个基因数据发生一些小的改动，（例如某个基因对应的转录本信息发生变化），Ensembl Stable ID是不会变动的。但是Stable ID后面的Version会变化，就是在Ensembl ID 后面加上小数点和版本号。比如说：ENSG00000223972.5 。
除非遇到特殊情况，例如基因组组装序列的一些改变较大，或者基因组注释的更新影响了某个基因的整体模式。这时，我们的Ensembl才会分配新的Ensembl Stable ID啦！

4.NCBI非冗余序列数据库-RefSeq

RefSeq数据库，即RefSeq参考序列数据库，是美国国家生物信息技术中心（NCBI）提供的具有生物意义上的非冗余的基因和蛋白质等片段序列的数据库。它的序列数据来源于大名鼎鼎的INSDC(International Nucleotide Sequence Database Collaboration，国际核苷酸序列数据库联盟)，所以RefSeq非常权威和全面！
RefSeq ID：RefSeq的一套特殊的Accesion Number。格式以两个字母开头，后跟一个下划线和六个或多个数字开头，例如:
NT_123456 constructed genomic contigs
NM_123456 mRNAs
NP_123456 proteins
NC_123456 chromosomes

RefSeq的数据是每日更新的，所以大大的保障了我们科研的效率和及时性！对于人类的RefSeq而言，每条RefSeq后面都会有一个COMMENT,COMMENT会显示这条RefSeq的状态。主要有这些状态：MODEL（说明是自动被NCBI提供的，没有被审核过），INFERRED（由序列分析预测得到，没有经过实验验证），PREDICTED（没有经过人工审核），PROVISIONAL，REVIEWED（已被人工审核），VALIDATED（已经过初步审查，但还没有过最后审查）以及WGS。
所以我们在用RefSeq的序列时也要注意看看它的Status，看它是否是经过审核的！

5.NCBI核酸序列数据库-GenBank

GI number: NCBI genebank 中的GI号(GenInfo Identifier，有时用小写字母“gi”表示)是核苷酸序列的序列标识号，由一系列简单的数字组成。它们被连续分配给NCBI处理的每个序列记录，如果一个序列以任何方式改变，那么一个新的GI号将被分配。
GenBank-Accession Number:Accession Number又叫做注册号/登录号，像GI号一样，它也是唯一的序列标识符。一个AC号通常是字母和数字的组合，例如一个字母后跟5位数(如U12345)或两个字母后跟6位数(如**AF123456)。但是与GI号不同的是，AC号一旦分配就不会改变了。主体编号不会改变，但是它所对应的版本（Accession number.Version）会随着增加。如NM_008261.1 –> NM_008261.2 ( GI number : 6680238 –> 46575915)。

需要注意的是，NCBI的GI号和Accesion Number.Version是两种不同系统的标识符，它们是平行使用的。GI号和序列的Accession number没有什么关联。

6.蛋白质序列数据库-Uniprot

UniprotKB中主要有两种编号系统：Entry name 和 Accession number。
UniProt 中录入的数据都被分配了一个唯一的 Entry name。又因为UniprotKB包括了Swiss-Prot（人工注释）和TrEMBL（计算机注释），所以entry name有两种命名方式：UniprotKB/Swiss-Prot entry name和UniprotKB/TrEMBL entry names 。
UniprotKB/Swiss-Prot entry name
UniprotKB/Swiss-Prot Entry name可以由多达11个的大写字母+数字组成。它的命名方式可以表示为X_Y的形式。X是蛋白质或基因名称的缩写（并不是标准的Gene name），最多可以由五个字符组成。“—”表示下划线。Y代表物种的编码，最多也是只能由五个字符组成（通常由属名的前三个字母和种名的前两个字母组成）。
例如：PURQ_ZYMMO，INS_HUMAN
UniprotKB/TrEMBL entry names
UniProtKB/TrEMBL的Entry name 由多达16个大写字母数字字符组成，其命名形式类似于UniProtKB/Swiss-Prot，也是X_Y的形式。其中，X与登录号（Accession number）相同，由6或10个字母数字字符组成。“—”代表下划线。Y代表物种的编码，最多也是只能由五个字符组成。因为TrEMBL中的蛋白质数据太多，不可能所有的条目都人工进行物种编码。所以TrEMBL启用了“虚拟编码”来对物种进行分类。这些虚拟的物种编码都是以数字9为前缀，举例来说，如下：
Mnemomnic code
9BACT (Bacteria)
9CNID (Cnidaria)
9FUNG (Fungi)
9REOV (Reoviridae)
Accession Number
UniprotKB中的每个条目都会分配一个唯一的Accession Number。accession number不会随数据的更新而变化，只有数据被删除的时候，accession number才会被删除。所以它是非常稳定的标识符，相当于数据库中的主键。
Uniprot的登录号（accession number）由6个或者10个字母数字的组合构成。构成方式是：
[OPQ][0-9][A-Z0-9]{3}[0-9]|[A-NR-Z]0-9{1,2}
例如：A2BC19, P12345, A0A022YWF9

Entry name与Accession Number的关系和区别
提交数据到UniprotKB之后，每个数据都会被分配一个Accession Number（AC号），这个AC号是唯一的。为了减少数据冗余，如果将UniprotKB中的多个数据合并成一个，AC号仍然是保持不变的。Entry name也是每个数据唯一具有的标识符，它可以展示数据的生物学信息。但是Entry name并不是稳定存在的，比如说我们要将TrEMBL中的数据转入Swiss-Prot，那么我们需要变更数据的Entry name，此时同一个数据的Entry name就发生了改变，但是它的AC号仍然保持不变。这就是他们之间的区别！
还有需要注意的是，一个数据可能有两个或者多个accession number 。原因主要有两个：（1）当合并两个或多个数据条目时，保留所有数据条目的登录号。第一个AC编号称为“主要AC编号”，其他编号称为“次要AC编号”。编号排序是按字母数字顺序排列的。
（2）如果现有数据条目被分割为两个或多个数据条目(“拆分”)，新的“主要”登录号将归属于所有分裂的条目，而所有原始登录号将保留为“次要”登录号。例如：P29358 被拆分成 P68250 和 P68251 。P68250 和 P68251的次级登录号均为P29358 。

所以，UniprotKB建议，我们最好使用数据的主登录号作为数据引用的方式（不是Entry name ，也不是二级登录号），因为主登录号是唯一并且稳定存在的数据标识符。

7.GEO数据库

注：这里的数据库ID号不再指向某一个基因，前面列出的ID可以相互转换，但是不能转换为GEO数据库的ID的哈，不在一个层面了。
如需将GEO里的探针转换为基因Symbol，可以参考：ID转换（R语言基因symbol注释）总结【GEO数据库ID转化】

基因表达数据库（Gene Expression Omnibus，GEO）隶属于美国国立卫生研究院的NCBI。是当今最大、最全面的公共基因表达数据资源。从这里可以找到已发表文章的高通量原始数据，可以实现自己复现文章数分析，或者利用这些高通量数据自行分析自己感兴趣的部分。
GEO数据库的数据由两部分构成：
1.用户提交的原始数据：GEO Platform (GPL)，GEO Sample (GSM)，GEO Series (GSE)。其中，GSE=GPL(Platform)+GSM(Sample 1)+GSM(Sample 2)+GSM(Sample N)
2.GEO数据库整理后的数据：Data set ,Profile

生信数据库ID大总结&ID转换方法

首先介绍下各个ID的转换，比较便捷的有：

下面就是各个ID的简介啦！

1.Entrez Gene数据库

2.HGNC(HUGO Gene Nomenclature Committee，人类基因命名委员会)

3.Ensembl数据库

4.NCBI非冗余序列数据库-RefSeq

5.NCBI核酸序列数据库-GenBank

6.蛋白质序列数据库-Uniprot

7.GEO数据库

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读