关于数据库的 “ID”

作者: 每天都在进步的FFOO | 来源:发表于2021-04-17 15:57 被阅读0次

关于数据库的 “ID”
关于IFind数据库100人群说明
（3）分布式ID之数据库自增ID实现分布式ID
Mysql数据库设置主从库自动同步数据
嵌套结构体在数据库读取数据的时候出现错误
Oracle数据源Sequence使用
Python操作MySQL数据库
分布式ID生成方案小结
2018-10-26
MySQL数据库介绍

常用数据库 ID

序号	ID 示例	ID 来源
一	GLA, GLB, UGT1A1	HGNC Gene Symbol（基因的官方名称）
二	ENSG00000116717	Ensemble ID（NCBI给予不同基因的一个代号（标识符））即Ensembl数据库的ID编号
三	GA45A_HUMAN	UniProtKB/Swiss-Prot, entry name
三	A5PJB2_BOVIN	UniProtKB/TrEMBL，entry name
三	A2BC19, P12345, A0A022YWF9	UniProt, accession number
四	U12345, AF123456	GenBank, NCBI, accession number
四	NT_123456, NM_123456, NP_123456	RefSeq, NCBI, accession number
五	10598, 717v	Entrez ID, NCBI
六	uc001ett, uc031tla.1	UCSCID 编号

一、Gene Symbol & Gene Name

（一）Gene Symbol

Gene Symbol 是基因的官方的名称，是对基因进行命名描述的一个缩写标识符(如:TP53)，Gene Symbol 是由专门的数据库HGNC database of human gene names(人类基因命名委员会)来对人类中大多数基因的进行命名，并由组织HUGO进行维护。目前，HGNC已经批准了超过41500个Gene Symbol ，其中超过19190个基因属于蛋白质编码基因，超过 7300个基因属于非编码RNA的基因，同时HGNC还为假基因以及基因组特征命名。这些基因符号都是唯一的。

（二）Gene Name

Gene Name：Gene Name是经过HGNC批准的全基因名称;与Gene Symbol对应。Gene Symbol相当于Gene Name的缩写。例如TP53对应的Gene Name就是：tumor protein p53 。

！因为HGNC只对人类基因进行命名，而且并不是所有的基因都有Official Symbol。所以如果基因缺少HGNC提供的Gene Symbol ，Entrez Gene数据库中的Official symbol就会变成Gene Symbol，并且Gene Symbol的编号会变成LOC前缀+Entrez ID，例如：LOC4333818

二、Ensembl IDs

(一)、组成

Ensembl ID的由5部分构成: ENS(species)(object type)(identifier).(version)

(species)	(object type)	(identifier)	.	(version)
不同物种的前缀	数据所指的类型	再加上一系列的数字. 有的时候可以有不同的版本,	再加上小数点	再加版本号

Enseml ID数据所指的类型包括exon(外显子), protein family(蛋白质家族)，, gene(基因)，, gene tree(基因树)， protein(蛋白质), regulatory feature( 调控特征）和 transcript（转录本）.

(二)、解读

如:ENSMUSG00000017167.6

① ENS代表这是一个Ensembl ID
② 第二部分代表物种, 如MUS代表小鼠(如果物种是人则不用填），常用物种见下表，其他物种的前缀可以点击这里查找
③紧接着的第三部分代表ID的类型, 如G代表基因, T代表转录本……
④是一系列的特殊数字
⑥ 小数点 .
⑦ 小数点后代表版本号

所以这个是一个Ensembl ID (ENS), 物种为小鼠(MUS), 代表一个基因(G), 并且这是第6个版本(.6).

常用物种前缀

前缀	学名
ENSCEL	Caenorhabditis elegans (Caenorhabditis elegans)
ENSCAF	Canis lupus familiaris (Dog)
ENSDAR	Danio rerio (Zebrafish)
FB	Drosophila melanogaster (Fruitfly)
ENS	Homo sapiens (Human)
ENSMUS	Mus musculus (Mouse)
ENSRNO	Rattus norvegicus (Rat)
ENSXET	Xenopus tropicalis (Xenopus)

其他物种的前缀可以点击这里查找

ID类型前缀

前缀	类型
E	exon （外显子）
FM	Ensembl protein family（合蛋白家族）
G	gene（基因）
GT	gene tree（基因树）
P	protein（蛋白质）
R	regulatory feature
T	transcript（转录本）

三、UniProtKB/Swiss-Prot &UniProtKB/TrEMBL

（一）UniProt （蛋白质序列数据库）

UniProt是Universal Protein 的缩写，是一个一级蛋白质序列数据库。
Uniprot包括UniProtKB知识库、UniParc归档库和UniRef参考序列集三部分，整合了三大数据库（Swiss-Prot，TrEMBL和PIR-PSD）的数据，是目前国际上最广泛使用的蛋白质数据库.其中Swiss-Prot和TrEMBL是核心数据库UniProtKB的两个子库，两个子库相似，区别如下

	Swiss-Prot子库	TrEMBL子库
整理	序列条目以及相关信息都经过手工注释和人工审阅	所有序列条目由计算机程序根据一定规则进行自动注释
团队	瑞士生物信息研究所团队负责	欧洲生物信息学研究所团队负责
内容	蛋白质序列数据的搜集、整理、分析、注释，力图为用户提供高质量的蛋白质序列和丰富的注释信息。	蛋白质名、基因名、物种名、分类学地位等基本信息，功能、表达、定位、家族和结构域等注释信息，以及与其它数据库的交叉链接。
比较	可靠性大（手工注释、人工审阅）	可靠性比Swiss-Prot小（自动注释）

！两者联系
①采用统一的数据库格式和登录号系统（UniProt 中录入的数据都被分配了一个唯一的 entry name）
②TrEMBL中的序列经手工注释和人工审阅后，归并到Swiss-Prot子库中，不再在TrEMBL子库中保留。
③这两个子库的数据量差别很大，TrEMBL的数据数量远远超过了Swiss-Prot。

（二）关于两个字库UniProtKB/Swiss-Prot 的 “entry name”

由于UniprotKB的entry name有两种命名方式：UniprotKB/Swiss-Prot entry name和UniprotKB/TrEMBL entry names

两种命名方式的对比

	Swiss-Prot “entry name”	TrEMBL “entry name”
描述	最多 11 位包含大写字母的字符串	最多 16 位包含大写字母的字符串
形式	X_Y	X_Y
X	最多五个便于记忆的蛋白质编号①	6 到 10 个字符组成的登录号(accession number②)
“-”	“-” 是下划线	“-” 是下划线
Y	最多五个便于记忆的物种编号③	最多五个便于记忆的物种编号 (由于数据太多，TrEMBL启用了“虚拟编码”④来对物种进行分类,以数字9为前缀)
例子	PURQ_ZYMMO INS_HUMAN	A5PJB2_BOVIN，

①蛋白质编号示例

Code(X)	Recommended protein name	Gene name
B2MG	Beta-2-microglobulin	B2M
HBA	Hemoglobin subunit alpha	HBA1
INS	Insulin	INS
CAD17	Cadherin-17	CDH17

②Accession Number
Accession Number 相当于数据库的主键, 由 6 到 10 个大写字母或者数字组成. 其构成规律有三种类型如下:

类型	1	2	3	4	5	6	7	8	9	10	例子
Ⅰ	[O /P /Q]	[0-9]	[A-Z/ 0-9]	[A-Z /0-9]	[A-Z/ 0-9]	[0-9]					P12345
Ⅱ	[A-N /R-Z]	[0-9]	[A-Z]	[A-Z/ 0-9]	[A-Z /0-9]	[0-9]					A2BC19
Ⅲ	[A-N/ R-Z]	[0-9]	[A-Z]	[A-Z/ 0-9]	[A-Z/ 0-9]	[0-9]	[A-Z]	[A-Z 0-9]	[A-Z /0-9]	[0-9]	A0A022YWF9

如果一个条目被分成两个, 或者多个条目合成一个, 则有相应的 accession number 继承规则.
③物种编号

Code	Species
BOVIN	Bovine
CHICK	Chicken
ECOLI	Escherichia coli
HORSE	Horse
HUMAN	Homo sapiens
MAIZE	Maize (Zea mays)
MOUSE	Mouse
PEA	Garden pea (Pisum sativum)
PIG	Pig
RABIT	Rabbit
RAT	Rat
SHEEP	Sheep
SOYBN	Soybean (Glycine max)
TOBAC	Common tobacco (Nicotina tabacum)
WHEAT	Wheat (Triticum aestivum)
YEAST	Baker’s yeast (Saccharomyces cerevisiae)

④虚拟的物种编码

Mnemomnic code	Taxonomic identifier	Scope
9BACT	2	Bacteria
9CNID	6073	Cnidaria
9FUNG	4751	Fungi
9REOV	10880	Reoviridae

(三)Entry name与Accession Number的关系和区别

①提交数据到UniprotKB之后，每个数据都会被分配一个唯一的Accession Number（AC号）。如果为了减少数据冗余，将UniprotKB中的多个数据合并成一个，AC号仍保持不变。
②Entry name也是每个数据唯一具有的标识符，它可以展示数据的生物学信息，但并不稳定存在的，比如说我们要将TrEMBL中的数据转入Swiss-Prot，那么我们需要变更数据的Entry name，此时同一个数据的Entry name就发生了改变，但是它的AC号仍然保持不变。这就是他们之间的区别！
③还有需要注意的是，一个数据可能有两个或者多个accession number 。
原因主要有两个：
a.当合并两个或多个数据条目时，保留所有数据条目的登录号。第一个AC编号称为“主要AC编号”，其他编号称为“次要AC编号”。编号排序是按字母数字顺序排列的。
b.如果现有数据条目被分割为两个或多个数据条目(“拆分”)，新的“主要”登录号将归属于所有分裂的条目，而所有原始登录号将保留为“次要”登录号。例如：P29358 被拆分成 P68250 和 P68251 。P68250 和 P68251的次级登录号均为P29358 。
所以，UniprotKB建议，我们最好使用数据的主登录号作为数据引用的方式（不是Entry name ，也不是二级登录号），因为主登录号是唯一并且稳定存在的数据标识符。

四、NCBI

(一)关于NCBI 的 GenBank & RefSeq

①NCBI(National Center for Biotechnology information）即美国国家生物技术信息中心是一个机构组织，而不是数据库,该中心的任务是：为储存和分析分子生物学、生物化学、遗传学知识创建自动化系统；从事研究基于计算机的信息处理过程的高级方法，用于分析生物学上重要的分子和化合物的结构与功能；促进生物学研究人员和医护人员应用数据库和软件；努力协作以获取世界范围内的生物技术信息
②GenBank是NCBI建立的DNA序列数据库
③ RefSeq即参考序列。NCBI的RefSeq 数据库(美国国立生物技术信息中心参考序列库) 是一个参考序列的非冗余集合，数据库包括构建的基因组contig、mRNA、蛋白和整个染色体。RefSeq 数据库是目前世界上最具有权威性的序列数据库，也是目前最可信赖的人类基因mRNA序列数据库
④RefSeq和genbank的数据的区别？
a. genbank是一个开放的数据库，对每个基因都含有许多序列。很多研究者或者公司都可以自己提交序列，另外这个数据库每天都要和EMBL和DDBJ交换数据。genbank的数据可能重复或者不准。
b.RefSeq数据库被设计成每个人类位点挑出一个代表序列来减少重复，是NCBI提供的校正的序列数据和相关的信息。数据库包括构建的基因组contig、mRNA、蛋白和整个染色体。refseq序列是NCBI筛选过的非冗余数据库，一般可信度比较高

(一)关于 GenBank 和 RefSeq 的 Accession Number

①GenBank Accession Number**

GenBank Accession numbers命名的规则是:

类别	规则
Nucleotide	1个字母+5个数字或 2个字母+6位数字
Protein	3个字母+5位数字
WGS	4个字母+2位数字+WGS的版本+6-8位数字
MGA	5个字母+7位数字

②RefSeq Accession Number

RefSeq 有一套特殊的 Accesion Number.一般的命名格式:
前缀为两个字母+下横线（'_'）+ 6 个或更多的数字
NCBI RefSeq命名格式的详细说明

例子

Accession	Molecule	Method	说明
AC_123456	Genomic	Mixed	基因组序列，主要是病毒、原核生物。
AP_123456	Protein	Mixed	蛋白序列，AP_原本只用于细菌的蛋白。
NC_123456	Genomic	Mixed	全基因组序列，包括细胞器的、质粒等
NG_123456、NM_123456	Genomic	Mixed	不完整的基因组序列，
NM_123456789 、NP_123456	mRNA	Mixed	成熟的mRNA
NP_123456789	Protein	Mixed	全长蛋白序列。但也有可能包括非全长的蛋白或成熟的多肽序列。
NR_123456	RNA	Mixed	不编码的RNA，假基因或其它

Accession 前缀

Accession 前缀	类型	说明
AC_	Genomic	Complete genomic molecule, usually alternate assembly （完整的基因组分子，通常交替组装）
NC_	Genomic	Complete genomic molecule, usually reference assembly（完整的基因组分子，通常参考组装）
NG_	Genomic	Incomplete genomic region（基因组区域不完整）
NT_	Genomic	Contig or scaffold, clone-based or WGS（重叠群或支架，基于克隆或WGS）
NW_	Genomic	Contig or scaffold, primarily WGS
NS_	Genomic	Environmental sequence（环境顺序）
NZ_	Genomic	Unfinished WGS （未定义的WGS）
NM_	mRNA
NR_	RNA
XM_	mRNA	Predicted model （预测模型）
XR_	RNA	Predicted model（预测模型）
AP_	Protein	Annotated on AC_ alternate assembly（在AC_备用装配上标注）
NP_	Protein	Associated with an NM_ or NC_ accession（与NM_或NC_加入相关）
YP_	Protein
XP_	Protein	Predicted model, associated with an XM_ accession（与XM_加入相关的预测模型）
ZP_	Protein	Predicted model, annotated on NZ_ genomic records （预测模型，已在NZ_基因组记录中注释）

WGS: Whole Genome Shotgun sequence data, 鸟枪法测序.

五、Entrez ID

GeneID即Entrez Gene ID(是NCBI中用来连接各个不同数据库统一的基因标志符)**
Entrez是归属于NCBI的一个综合的文本检索引擎系统。这个检索引擎整合了PubMed数据库的生物医学文献与其他39个文献和分子数据库（例如GEO，Entrez Gene等，这些数据库基本涵盖了DNA和蛋白质序列，结构，基因，基因组，遗传变异和基因表达方面的数据）。NCBI组织建立了Entrez，Entrez整合了各大数据库的入口，便于进行数据库检索。通常所说的检索NCBI数据库，其实就是在检索Entrez这个引擎系统所整合的生信数据库。
由于Entrez 作为一个综合性检索引擎，为了方便，其对不同的 Gene 进行了编号, 即 Entrez Gene ID. 并且由于 Entrez ID 相对稳定,也被众多其他数据库, 如 KEGG 等. 一串数字的Entrez Gene ID 不但具有很高的辨识度，而且在ID转化中占据着重要的地位。生信菜鸟团的博客《NCBI的基因entrezID相关文件介绍》讲解了Entrez ID主要的信息文件。

gene_id	symbol	chromosome
352937	dio2	20

表中geneid即为 Entrezid. 在ID转换中有重要的作用。

六、UCSC ID

UCSC ID 由小写字母和数字构成,
起 uc+三位数字+三位小写字母+小数点+数字构成版本号如:uc010qfk.3, uc010qfk.3.
! UCSC ID几乎被抛弃不用了，只是因为UCSC是三大数据库之一而已。

补：tax_id代表物种的id, 如人类是9606

生信技能树：超精华生信ID总结，想踏入生信大门的你-值得拥有
 常用数据库ID表示方式
 UniProt数据库参考学习连接1(作者：thinkando)
NCBI参考序列（RefSeq）常见问题回答
 NCBI RefSeq命名格式的详细说明
 DDBJ/EMBL/GenBank Accession的命名规则

关于数据库的 “ID”
常用数据库 ID 序号ID 示例ID 来源一GLA, GLB, UGT1A1HGNC Gene Symbol（基因...
关于IFind数据库100人群说明
来源：南粤增山（ID：nyzs2012）作者：增山关于IFind数据库： IFind数据库群。我个人已经用了I...
（3）分布式ID之数据库自增ID实现分布式ID
数据库自增ID机制原理介绍在分布式里面，数据库的自增ID机制的主要原理是：数据库自增ID和mysql数据库的re...
Mysql数据库设置主从库自动同步数据
设置主数据库第一步：修改主数据库my.ini配置： Server-id = 1 这是数据库ID,此ID是唯一的...
嵌套结构体在数据库读取数据的时候出现错误
由于Category和ArticleInfo模型的ID映射到数据库都是id,所以在读取数据库时，id无法匹配到结构...
Oracle数据源Sequence使用
关于配置Oracle数据源无法使用Mybatis-plus 主键类型 AUTO:"数据库ID自增", INPUT...
Python操作MySQL数据库
数据库 Python连接数据库获取数据库版本信息 #添加数据同时获取刚刚插入数据的ID 修改根据ID查询查询...
分布式ID生成方案小结
分布式ID生成方案自增数据库自增ID 基于数据库自增ID 性能低每次获取都要请求数据库可靠性差单机宕机不可用...
2018-10-26
数据库&多表关联&增删改&数据库备份数据库关系图数据库ID关联
MySQL数据库介绍
MySQL数据库介绍关系型数据库mysql 用户表用户ID 用户名密码性别年龄装备商品表商品ID ...