写在前面
昨天我们介绍了三个ID转换的工具:DAVID;g:Convert以及biomart。但是这个工具内置的数据怎么样。这个我们不清楚。所以就来评价一下这几个工具吧。
数据准备
由于我们使用最多的是TCGA的数据。所以我们就用TCGA的ID号来进行一下多个数据库的评估。
首先由于TCGA比对的ID使用的是ENSG + 版本的的样式。这样的ID号。我们只能只能使用biomart来进行转换。同样的转换的结果也不是很理想。至于说TCGA的ID号怎么转换最好。这个我们可以明天再讲一下。
为了评价三个数据库的结果,所以我们就把有版本号的结果进行了拆分。拆成了ENSG类别的ID号来进行多数据库评价。我们这里选择随机的999个基因ID来进行评价。
![](https://img.haomeiwen.com/i10631927/51e803f102ddf664.jpeg)
多数据库评价结果
利用这999个ENSG ID号,我们在DAVID数据库当中进行了转换。结果发现。在这999个ID当中。只有515个基因存在于数据库当中。剩下的484个是没有纳入到数据库当中的。
![](https://img.haomeiwen.com/i10631927/c3449e4abf39e03a.jpeg)
同样的,我们在g:Convert数据库当中进行的转换。999个的基因当中,经过转换,最终有894个基因得到的转换。
![](https://img.haomeiwen.com/i10631927/1bb1b3e727ca6e53.jpeg)
![](https://img.haomeiwen.com/i10631927/c2c2eb3ecca748d2.png)
最后,通过biomart数据库来进行转换的话。我们在输入好之后。点击count就就可以得到统计的结果。经过统计。我们发现有925个基因得到的注释。
![](https://img.haomeiwen.com/i10631927/89e07766cb482160.jpeg)
综上来看的话,还是biomart转换的结果更好一些。所以如果要进行id转换的话,还是推荐使用biomart。有时候biomart或者说ensembl数据库整体来说在国内有时候会上不去,这个时候其实使用g:Convert也是可以的。至于DAVID嘛。。还是放弃吧。。。
biomart数据库的另一种使用
我们在进行基因组分析的时候,经常得到了很多目标基因。但是对于这些基因具体是蛋白编码的还是非编码的不是很清楚。这个时候看着一个个基因总不能一个个去查吧。所以这个时候就可以使用biomart进行基因类型的注释了。
在biomart的Attributes里面,有一个Gene Type的注释。这个注释可以让我们知道基因的类型。如果我们选上这个输出结果的话。
![](https://img.haomeiwen.com/i10631927/7ebdebc0e43317d5.jpeg)
在选择之后,点击Results。我们就可以看到在的最后一栏就有了一个Gene Type的列。这个里面就注释了,每一个基因是蛋白编码的还是其他的。
![](https://img.haomeiwen.com/i10631927/bd2d417e679325e8.jpeg)
写到最后
以上就是我们对于三个数据库的比较以及对于biomart使用过程当中的一个对于基因类型注释的小技巧。
通过以上来看的话,其实转换的时候都会有一些基因的丢失。那TCGA里面的基因都来自于哪里呢?这个我们下周再讲哈。
网友评论