写在前面

我们在使用TCGA数据库的时候，从TCGA数据库下载到的数据，使用的原始数据ID是ENS ID。对于这样的ID号，我们一方面不认识他们是什么，另外如果要做下有分析的话，很多数据库也不接受这样的输入，所以就需要转换为gene symbol。

image

前几天我们也实验过，如果使用很多ID 转换工具的话，很多基因是转换不过来的。尤其是TCGA这种ENSID+version的就更加不容易转换了。那么怎么才能全部的转换这些ID成为基因名呢？今天我们就来简单的介绍一下。

二代测序分析的简单过程

在解释怎么转换之前，首先还是要知道这样的ID是怎么来的。这个就简单的介绍一下二代测序分析的过程。

我们在进行基因测序的时候，获得的原始数据只有fastq的文件。这个文件只是一段一段的基因序列。

image

我们在获得这些东西的时候，并不知道我们测出来的这些序列是来自于那个基因。所以就需要对这些序列进行比对(mapping)。但是机器也不知道要往哪里比对，所以我们就需要给计算机提供一个参考基因组。这个基因组是一个人类所有基因的基因ID+相关序列的fasta的文件。经过比对，我们就知道了我们测序出来的那些序列是来自于什么基因了。

通过以上的简单介绍，我们就知道了只要我们知道了，TCGA数据在比对的使用的参考基因组是ENSID的版本。所以在比对完的结果就是以ENSID来体现了。那进一步的，我们只需要知道他们使用的是什么数据库的参考基因组，那么一般来说都能找到相对应的ENSID—基因名的数据的。

经过查询，我们发现，TCGA的数据库使用的是Gencode数据库的参考基因组。

image

gencode数据库

关于gencode(https://www.gencodegenes.org/)数据库，我们来做一下简单的介绍。这个数据库别的不干。主要的工作就是来更新人和小鼠的参考基因组的信息。随着基因组研究的深入，人体的参考基因组会发生不断的变化。而这个数据库就是来实时的更新这些基因组的变化。

image

每一次数据库版本的变化这个数据库都会按照数字网上叠加。目前基因组变化已经到了gencode v34版本。而通过之前TCGA的图，我们可以看到，TCGA的基因组由于是之前注释的，所以是gencode v22版本。我们可以点击这个数据库当中的Human-Release History就可以看到作用的版本变化了。

image-20200602100018029

由于是22版本，进一步的点击22的就可以看到这个版本的所有相关信息了。

image

TCGA ID对照信息下载

以上只是来简单的介绍了一下gencode的数据库，进一步的来了解TCGA是通过哪个数据库来进行比对的。如果大家以后又要比对二代测序的数据的话，就可以在这里下载参考基因组的。但是如果我们要进行基因转换的话，需要在这里下载数据嘛。首先肯定是可以的。但是我们也有更简单的方法，那就是在UCSC XENA的数据库里面，已经把gencode v22的信息整理好了。我们直接下载就行了。