美文网首页生物信息学
关于基因ID的二三事

关于基因ID的二三事

作者: drlee_fc74 | 来源:发表于2020-06-03 07:53 被阅读0次

写在前面

对于一个基因而言,我们经常使用的,同时在文章里面能看到的还是基因名。例如: TP53, RNF180。这样的名字。是这个基因功能+编号的简写。例如TP53就是Tumor Protein P53的简写;RNF180是Ring Finger Protein 180的简写。对于很多对基因进行记录的数据库而言,为了他们自己数据库记录的方便,对于每个基因都会进行自己数据库的唯一编号,这样就导致了一个基因形成了很多不同的编号(ID)。例如下图就是一个基因吧多个数据库的不同ID号。

image

这也就导致经常在进行数据分析之前拿到手的关于基因的数据对于基因ID的注释可能不是我们想要的基因名。所以经常会就会需要进行ID转换。对于基因ID转换的主要目的还是转换为基因名,或者说转换成我们进行下一步分析的要求的ID号。

既然要讲一下ID转换,那首先还是要稍微的讲一下我们在一个基因可能存在哪些ID号。这样我们在碰到之后也知道这些是这样形式的ID来自于什么地方。这里我们就说一下常见的基因ID都是哪个数据库的。

Entrez Gene

有时候我们经常会碰到利用几个数字来代表基因的。例如上图的285671就代表RNF180。这种一般是数字代表基因的,最常见的就是Entrez Gene。对于这样的ID号,其实就是来自于ncbi里面的gene数据库。如果想要了解gene数据库的话,可以参考我们的第二条推送。

image

关于gene数据库对于ID的注释。这个ID号只是代表基因。对于一个基因而言它会有不同的mRNA转录本,进一步的也会有不同的蛋白异构体。在gene数据库里面对于转录本和蛋白的编号是以NM和NP开头的。如果是NM的话则代表是转录本编号,如果是NP的话则是蛋白编号。

image

另外的话,我们检索的这个基因是一个非编码的RNA(ncRNA)的话,那关于转录本的注释就从之前的NM开头变成了NR开头了。

image.png

Ensembl ID

image

Ensembl是另外一个记录基因信息的数据库。就笔者而言查询基因信息更多使用的gene数据库(其实更多的还是genecards)。这个数据库使用的较少。但是这个数据库对于基因的注释十分的详细且权威。对于其对于基因的注释十分的详细,所以也就形成了很多和基因不同情况下的ID了。大致的我们能看到的和Ensembl有关的ID的话就有以下几种。

image

关于Ensembl ID,不管是什么类型的,其ID号的前三个开头都是以ENS开头的。剩下的可以再看第四位,

  • G代表是Gene。是这个基因的的唯一编码,类似于Gene数据库里面的数字

  • T代表Transcript。是数据库对于不同转录本的ID号。这个类似于上面gene数据库当中的NM编号开头的ID。

  • P代表protein。是数据库对于不同蛋白的ID号。这个类似于上面gene数据库的NP编号开头的ID。

另外对于不同的ID,由于其基因信息也会经常所以为了更加详细的区分,Ensembl数据库就又在各自的ID号后面又加了一个.ID来代表不同的版本。所以就有了ENSGXXXX.1这样的编号。

综上,Ensembl数据库的ID号可以用以下这个图来代表

image

Uniprot ID

image

如果我们查找的是一个基因的蛋白的话,那么久有可能涉及到Uniprot这种专门注释蛋白的数据库。这种的ID有时候我们会在蛋白组学当中看到。对于Uniprot的ID号的话,主要是采用字母+数字混合的这种形式(具体的含义,没有详细的查找)。例如:Q86T96就代表RNF180这个基因的蛋白。

芯片当中的ID

我们在进行进行进行表达谱芯片分析的时候,经常会碰到芯片的ID号。这样我们在进行芯片分析的时候,其实首先分析的还是芯片的ID号,进一步的才是对ID号进行注释。例如Affymetrix Human Genome U133 Plus 2.0 Array这个芯片的话。其ID号就是这个样子的。

image

很多ID转换的数据库也提供了关于芯片ID的转换。但是这种的其实最好的还是下载了芯片的注释文件,来自己来注释。数据库提供的注释文件有可能是老的注释文件。所以说可能有很多注释不到的。

写在后面

基本上常见的一些ID的信息就是这些。明天我们会介绍几个ID转换的网站。这个方便我们在ID转换的时候使用。

欢迎关注公众号:数据库百科,一个介绍医学科研相关数据库使用的公众号

image.png

相关文章

  • 关于基因ID的二三事

    写在前面 对于一个基因而言,我们经常使用的,同时在文章里面能看到的还是基因名。例如: TP53, RNF180。这...

  • 关于NSArray的二三事

    关于NSArray的二三事

  • 基因ID类型

    基因ID类型 常见基因ID类型包含Gene ID,Gene Symbol,Ensembl ID,RefSeq Ac...

  • 关于String需要知道的二三事

    关于String需要知道的二三事 标签: Java基础 原文链接:关于String需要知道的二三事 转载请注明...

  • 关于,二三事

    备忘一 16. 12 .末 真的已经很久不码字 平时想要说的想要写的,断断续续的存在了备忘录里和记事本里 专门想要...

  • 关于this的二三事

    什么是this this是JS中一个非常重要的关键字。this 就是你 call 一个函数时,传入的 contex...

  • Bioconductor:clusterProfiler

    准备工作 这里进行包的导入 基因ID类型的转换 bitr转换 参数: x:基因ID向量 fromType:目前基因...

  • 今天是我减肥525天~

    #关于减肥的二三事# 我从小学三年级,也就是10岁开始身体就开始就像是突然滋生出了一种名为肥胖的基因,那是的...

  • 蛋白ID转基因ID

    将Ensembl 中的蛋白ID转化成基因ID,可以通过clusterProfiler这个包。如以大鼠的基因与蛋白转...

  • 脚本 | Shell | 基因id转换_v2

    之前写过一个【基因id转换】的脚本,是针对fasta文件的。 一些软件对基因id的长度有一定限制,改完基因id跑完...

网友评论

    本文标题:关于基因ID的二三事

    本文链接:https://www.haomeiwen.com/subject/rqtvzhtx.html