我们在研究基因的时候,尤其是在研究高通量数据分析的时候,经常会碰到我们研究的这个数据的基因ID不是我们通常意义上的基因名。拿TCGA的数据举例的话,TCGA RNA-seq的数据比对的基因是ID是Ensembl数据库的ID号,如果我们拿到这样的ID号的话,有一些分析是进行不下去的。所以需要转化为传统意义上的Gene Symbol。
image基因ID转换的工具很多,各个数据库不同的还是在于背景数据库的问题。有时候我们拿到的基因的ID是新的ID号,但是使用的的数据库里面的数据是旧的结果就导致很多ID没办法转换为基因名。我们就介绍几个进行ID转换的工具吧。
对于ID转换的工具而言,其实操作都差不多,我们要做的其实就三步
-
提交我们要转换的ID号
-
选择这个ID号属于什么数据库
-
选择我们想要转换成什么ID号
DIVID
DIVID(https://david.ncifcrf.gov/home.jsp),因为很多生信的文章富集分析使用的是这个数据库,所以就导致说这个数据库很出名。但是这个数据库除了可以做富集也是可以做ID的转换的。
image我们需要做的就是在ID转换的里面,在填写数据的左边,按照下图当中的操作填入具体的相对应的ID。
image点击submit之后,在右边栏当中选择想要转换的ID号,然后点击submit即可。
imageg:Convert
之前我们在介绍富集分析软件的时候,提到过一个多ID的富集分析软件g:GOST。具体的数据库介绍,可以查看推送的第二条。在这个数据库里面有一个g:Convert(https://biit.cs.ut.ee/gprofiler/convert)的工具。这个工具可以让我们进行ID的转换。
image在这个数据库进行ID转换的话,我们不需要选择输入的是什么ID。只需要选择输出什么ID就行。然后就得到想要结果。
image另外,这个数据库对于转换的结果,默认的都会添加gene symbol的。所以在输出选择里面是没有gene symbol这个选项的。
image另外这个由于这个数据库做富集的时候支持多种不同形式的ID来进行富集。所以在基因转换的时候也是支持的。例如我们输入这些混合的ID,就可以得到所有和这些ID有关的基因名了。
imagebiomart
之前在某一个帖子里面提到过id转换的话推荐使用biomart。这次就介绍一下biomart这个数据库。这个数据库是ensembl数据库里面进行id转换的一个子工具。这个数据库的网址是:https://m.ensembl.org/biomart/martview/
我们进入数据库之后第一步是选择我们要转换的物种。
image选择完物种之后的话,我们就需要制定输入和输出了
image我们点击Filters就可以就可以选择我们输入什么类型的ID。这个数据库支持这么多类型的输入。
image其中第二个GENE里面可以输入多个数据库ID。这里我们可以选择我们输入的ID是什么。在每个数据库参考ID的后面,都有实例让我们来看是不是这样的ID号
image选择好输入好之后的话,我们点击Attributes来指定我们想要导出的ID类型。例如我们选择输出:基因名、染色体位置、基因的起始位置和中止位置。
image在我们选择好之后。我们点击Results就可以获得转换后的结果了。
image写到最后
以上是我们介绍的三个ID转换的数据库。网络版本的转换工具有一个不好的地方在于如果我们转换的ID过多的话,有可能卡,或者说就查过它的最大限制了。这个时候往往使用一些代码行的工具可能刚好用一些。代码行的话,biomart也是有相对于的R包的。有兴趣的可以学习一下。
那么这几个数据库到底哪个更好一些的呢?我们明天利用 一些数据来进行实验检测一下吧。
网友评论