美文网首页
TCGA数据库 ID转换

TCGA数据库 ID转换

作者: drlee_fc74 | 来源:发表于2020-06-08 09:32 被阅读0次

    写在前面

    我们在使用TCGA数据库的时候,从TCGA数据库下载到的数据,使用的原始数据ID是ENS ID。对于这样的ID号,我们一方面不认识他们是什么,另外如果要做下有分析的话,很多数据库也不接受这样的输入,所以就需要转换为gene symbol。

    image

    前几天我们也实验过,如果使用很多ID 转换工具的话,很多基因是转换不过来的。尤其是TCGA这种ENSID+version的就更加不容易转换了。那么怎么才能全部的转换这些ID成为基因名呢?今天我们就来简单的介绍一下。

    二代测序分析的简单过程

    在解释怎么转换之前,首先还是要知道这样的ID是怎么来的。这个就简单的介绍一下二代测序分析的过程。

    我们在进行基因测序的时候,获得的原始数据只有fastq的文件。这个文件只是一段一段的基因序列。

    image

    我们在获得这些东西的时候,并不知道我们测出来的这些序列是来自于那个基因。所以就需要对这些序列进行比对(mapping)。但是机器也不知道要往哪里比对,所以我们就需要给计算机提供一个参考基因组。这个基因组是一个人类所有基因的基因ID+相关序列的fasta的文件。经过比对,我们就知道了我们测序出来的那些序列是来自于什么基因了。

    通过以上的简单介绍,我们就知道了只要我们知道了,TCGA数据在比对的使用的参考基因组是ENSID的版本。所以在比对完的结果就是以ENSID来体现了。那进一步的,我们只需要知道他们使用的是什么数据库的参考基因组,那么一般来说都能找到相对应的ENSID—基因名的数据的。

    经过查询,我们发现,TCGA的数据库使用的是Gencode数据库的参考基因组。

    image

    gencode数据库

    关于gencode(https://www.gencodegenes.org/)数据库,我们来做一下简单的介绍。这个数据库别的不干。主要的工作就是来更新人和小鼠的参考基因组的信息。随着基因组研究的深入,人体的参考基因组会发生不断的变化。而这个数据库就是来实时的更新这些基因组的变化。

    image

    每一次数据库版本的变化这个数据库都会按照数字网上叠加。目前基因组变化已经到了gencode v34版本。而通过之前TCGA的图,我们可以看到,TCGA的基因组由于是之前注释的,所以是gencode v22版本。我们可以点击这个数据库当中的Human-Release History就可以看到作用的版本变化了。

    image-20200602100018029

    由于是22版本,进一步的点击22的就可以看到这个版本的所有相关信息了。

    image

    TCGA ID对照信息下载

    以上只是来简单的介绍了一下gencode的数据库,进一步的来了解TCGA是通过哪个数据库来进行比对的。如果大家以后又要比对二代测序的数据的话,就可以在这里下载参考基因组的。但是如果我们要进行基因转换的话,需要在这里下载数据嘛。首先肯定是可以的。但是我们也有更简单的方法,那就是在UCSC XENA的数据库里面,已经把gencode v22的信息整理好了。我们直接下载就行了。

    image

    如果有需要这个数据库的,后台回复gencode22即可哈。

    至于这个ID数据和TCGA的数据如何合并到一起,这个就是看自己的数据处理功底了。excel的话可以使用vlookup来进行合并吧。

    好了,今天就介绍这里,主要还是想让大家了解一下二代测序的基因过程以及TCGA的ID用的是什么版本的。

    相关文章

      网友评论

          本文标题:TCGA数据库 ID转换

          本文链接:https://www.haomeiwen.com/subject/lvzktktx.html