写在前面
我们在使用TCGA数据库的时候,从TCGA数据库下载到的数据,使用的原始数据ID是ENS ID。对于这样的ID号,我们一方面不认识他们是什么,另外如果要做下有分析的话,很多数据库也不接受这样的输入,所以就需要转换为gene symbol。

前几天我们也实验过,如果使用很多ID 转换工具的话,很多基因是转换不过来的。尤其是TCGA这种ENSID+version的就更加不容易转换了。那么怎么才能全部的转换这些ID成为基因名呢?今天我们就来简单的介绍一下。
二代测序分析的简单过程
在解释怎么转换之前,首先还是要知道这样的ID是怎么来的。这个就简单的介绍一下二代测序分析的过程。
我们在进行基因测序的时候,获得的原始数据只有fastq的文件。这个文件只是一段一段的基因序列。

我们在获得这些东西的时候,并不知道我们测出来的这些序列是来自于那个基因。所以就需要对这些序列进行比对(mapping)。但是机器也不知道要往哪里比对,所以我们就需要给计算机提供一个参考基因组。这个基因组是一个人类所有基因的基因ID+相关序列的fasta的文件。经过比对,我们就知道了我们测序出来的那些序列是来自于什么基因了。
通过以上的简单介绍,我们就知道了只要我们知道了,TCGA数据在比对的使用的参考基因组是ENSID的版本。所以在比对完的结果就是以ENSID来体现了。那进一步的,我们只需要知道他们使用的是什么数据库的参考基因组,那么一般来说都能找到相对应的ENSID—基因名的数据的。
经过查询,我们发现,TCGA的数据库使用的是Gencode数据库的参考基因组。

gencode数据库
关于gencode(https://www.gencodegenes.org/)数据库,我们来做一下简单的介绍。这个数据库别的不干。主要的工作就是来更新人和小鼠的参考基因组的信息。随着基因组研究的深入,人体的参考基因组会发生不断的变化。而这个数据库就是来实时的更新这些基因组的变化。
每一次数据库版本的变化这个数据库都会按照数字网上叠加。目前基因组变化已经到了gencode v34版本。而通过之前TCGA的图,我们可以看到,TCGA的基因组由于是之前注释的,所以是gencode v22版本。我们可以点击这个数据库当中的Human-Release History就可以看到作用的版本变化了。

由于是22版本,进一步的点击22的就可以看到这个版本的所有相关信息了。
TCGA ID对照信息下载
以上只是来简单的介绍了一下gencode的数据库,进一步的来了解TCGA是通过哪个数据库来进行比对的。如果大家以后又要比对二代测序的数据的话,就可以在这里下载参考基因组的。但是如果我们要进行基因转换的话,需要在这里下载数据嘛。首先肯定是可以的。但是我们也有更简单的方法,那就是在UCSC XENA的数据库里面,已经把gencode v22的信息整理好了。我们直接下载就行了。

如果有需要这个数据库的,后台回复gencode22即可哈。
至于这个ID数据和TCGA的数据如何合并到一起,这个就是看自己的数据处理功底了。excel的话可以使用vlookup来进行合并吧。
好了,今天就介绍这里,主要还是想让大家了解一下二代测序的基因过程以及TCGA的ID用的是什么版本的。
网友评论