BBQ（生信基础问题）27：GENCODE与Ensembl GT

作者: liu_ll | 来源:发表于2019-03-08 16:52 被阅读24次

BBQ（生信基础问题）27：GENCODE与Ensembl GT
基因组版本与注释
BWA_Bowtie1/2 比对算法【BWT】
关于Hisat2的参考基因组和注释文件
转录组专题：sra预处理
BBQ（生信基础问题13）：序列比对专题
BBQ(生物信息基础问题37)：当样本转录组普遍变化时RNA-S
有部分ensembl数据库ID被取消了
人基因组在NCBI、UCSC、ENSEMBL、GENCODE、千
BBQ（生信基础问题28）：如何使用samtools tview

上个BBQ讲到了GTF/GFF3的一些介绍：https://www.jianshu.com/p/3eaeecfa7fd5。今天我们主要关注的是不同基因注释版本间的异同。

一：前情知识回顾

现在主流的基因注释版本有一下三种

1：RefSeq Gene注释，对gene的不同转录本进行注释，1个转录本对应1个编号成为RefSeq id，例如对于可以翻译成蛋白的转录本，都会以NM_开头如NM_015658；对于不能翻译的转录本，都会以NR_开头如NR_027055；

2：Ensembl注释；对gene的不同转录本进行注释，以ENSG开头的表示Ensembl gene_id如ENSG00000227232，以ENST开头的表示Ensembl transcript id如ENST00000438504

3：UCSC gene注释；对gene的不同转录本进行注释，一般是类似uc004cpf这样的名称。

话不多说，我们今天的主题是来关注一下Ensembl和GENCODE的基因注释文件有什么不同：

二：Ensembl数据库

关于Ensemble数据库的介绍，我在之前的BBQ24-25有介绍,大家可以点进去看看，里面介绍了如何下载基因注释文件，也介绍了这些文件的基本注释情况

三：GENCODE数据库

GENCODE是ENCODE计划的衍生品，也是由大名鼎鼎的sanger研究所负责整理和维护，提供了一个非常完善可信的基因注释体系
我们可以访问一下它的官网：https://www.gencodegenes.org/
（PS：国内普通浏览器有时候打不开这个官网，去谷歌浏览器上打开看看）

GENCODE
我们可以看到这个网站只提供人和小鼠的注释信息，我们先来看看人的信息~(非常完善，而且版本也很多可供下载)

Human.png

四：两种注释文件的区别

我们来看一下Ensembl下载下来的GTF文件；

#!genome-build GRCh37.p13
#!genome-version GRCh37
#!genome-date 2009-02
#!genome-build-accession NCBI:GCA_000001405.14
#!genebuild-last-updated 2013-09
1       ensembl_havana  gene    11869   14412   .       +       .       gene_id "ENSG00000223972"; gene_version "4"; gene_name "DDX11L1"; gene_source "ensembl_havana"; gene_biotype "pseudogene";
1       havana  transcript      11869   14409   .       +       .       gene_id "ENSG00000223972"; gene_version "4"; transcript_id "ENST00000456328"; transcript_version "2"; gene_name "DDX11L1"; gene_source "ensembl_havana"; gene_biotype "pseudogene"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; tag "basic";
1       havana  exon    11869   12227   .       +       .       gene_id "ENSG00000223972"; gene_version "4"; transcript_id "ENST00000456328"; transcript_version "2"; exon_number "1"; gene_name "DDX11L1"; gene_source "ensembl_havana"; gene_biotype "pseudogene"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; exon_id "ENSE00002234944"; exon_version "1"; tag "basic";
1       havana  exon    12613   12721   .       +       .       gene_id "ENSG00000223972"; gene_version "4"; transcript_id "ENST00000456328"; transcript_version "2"; exon_number "2"; gene_name "DDX11L1"; gene_source "ensembl_havana"; gene_biotype "pseudogene"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; exon_id "ENSE00003582793"; exon_version "1"; tag "basic";
1       havana  exon    13221   14409   .       +       .       gene_id "ENSG00000223972"; gene_version "4"; transcript_id "ENST00000456328"; transcript_version "2"; exon_number "3"; gene_name "DDX11L1"; gene_source "ensembl_havana"; gene_biotype "pseudogene"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; exon_id "ENSE00002312635"; exon_version "1"; tag "basic";

再来看一下GENCODE的GTF文件：

##description: evidence-based annotation of the human genome (GRCh38), version 28 (Ensembl 92)
##provider: GENCODE
##contact: gencode-help@ebi.ac.uk
##format: gtf
##date: 2018-03-23
chr1    HAVANA  gene    11869   14409   .       +       .       gene_id "ENSG00000223972.5"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; level 2; havana_gene "OTTHUMG00000000961.2";
chr1    HAVANA  transcript      11869   14409   .       +       .       gene_id "ENSG00000223972.5"; transcript_id "ENST00000456328.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "processed_transcript"; transcript_name "RP11-34P13.1-002"; level 2; transcript_support_level "1"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000362751.1";
chr1    HAVANA  exon    11869   12227   .       +       .       gene_id "ENSG00000223972.5"; transcript_id "ENST00000456328.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "processed_transcript"; transcript_name "RP11-34P13.1-002"; exon_number 1; exon_id "ENSE00002234944.1"; level 2; transcript_support_level "1"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000362751.1";
chr1    HAVANA  exon    12613   12721   .       +       .       gene_id "ENSG00000223972.5"; transcript_id "ENST00000456328.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "processed_transcript"; transcript_name "RP11-34P13.1-002"; exon_number 2; exon_id "ENSE00003582793.1"; level 2; transcript_support_level "1"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000362751.1";
chr1    HAVANA  exon    13221   14409   .       +       .       gene_id "ENSG00000223972.5"; transcript_id "ENST00000456328.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "processed_transcript"; transcript_name "RP11-34P13.1-002"; exon_number 3; exon_id "ENSE00002312635.1"; level 2; transcript_support_level "1"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000362751.1";

主要的区别除了第一列chr以外，就是第九列的信息顺序不太一样。但是真的就什么区别都没有吗？

What is the difference between GENCODE GTF and Ensembl GTF?
The gene annotation is the same in both files. The only exception is that the genes which are common to the human chromosome X and Y PAR regions can be found twice in the GENCODE GTF, while they are shown only for chromosome X in the Ensembl file.
In addition ,the GENCODE GTF contains a number of attributes not present in the Ensembl GTF, including annotation remarks, APPRIS tags and other tags highlighting transcripts experimentally validated by the GENCODE project or 3-way-consensus pseudogenes (predicted by Havana, Yale and UCSC). Find here the complete list of tags.

简单来说：在X与Y的同源区域，有一些基因是在两条染色体上都有的，Ensembl只在X染色体注释了1次，GENCODE在X与Y染色体各注释了1次。

同时，GENCODE的GTF在第9列的可选列里面增加了很多新的tag信息来记录更多的注释内容。这些在Ensembl的注释里面也是没有的。

5：今天的Q&A

1：想办法查找到human X与Y染色体的同源区域（PAR regions）的坐标，并想办法验证，GENCODE确实对这些同源区域注释了2次；
先说思路：假定能够找的到那个文件的话，那么ChrX 或者是ChrY上应该是会导游PAR标签的。所以我就先把所有ChrX或者是ChrY的注释全都切下来了。然后再进行比较。（这个办法是在是本办法，希望有大神可以指点了！）
下载gft文件：

image.png

利用awk命令

awk '$1=="chrY"' gencode.v29.annotation.gtf >> CHRY.GTF
awk '$1=="chrX"' gencode.v29.annotation.gtf >> CHRY.GTF
 awk -F "\t" '{print $NF}'  CHRY.GTF |awk -F ";" '/tag "PAR"/{print $0}' > 1.gft

是不是少了一行命令呢？
其实我再看这个生成的结果的时候就已经可以看出问题啦