上个BBQ讲到了GTF/GFF3的一些介绍:https://www.jianshu.com/p/3eaeecfa7fd5。 今天我们主要关注的是不同基因注释版本间的异同。
一:前情知识回顾
现在主流的基因注释版本有一下三种
1:RefSeq Gene注释,对gene的不同转录本进行注释,1个转录本对应1个编号成为RefSeq id,例如对于可以翻译成蛋白的转录本,都会以NM_开头如NM_015658;对于不能翻译的转录本,都会以NR_开头如NR_027055;
2:Ensembl注释;对gene的不同转录本进行注释,以ENSG开头的表示Ensembl gene_id如ENSG00000227232,以ENST开头的表示Ensembl transcript id如ENST00000438504
3:UCSC gene注释;对gene的不同转录本进行注释,一般是类似uc004cpf这样的名称。
话不多说,我们今天的主题是来关注一下Ensembl和GENCODE的基因注释文件有什么不同:
二:Ensembl数据库
关于Ensemble数据库的介绍,我在之前的BBQ24-25有介绍,大家可以点进去看看,里面介绍了如何下载基因注释文件,也介绍了这些文件的基本注释情况
三:GENCODE数据库
GENCODE是ENCODE计划的衍生品,也是由大名鼎鼎的sanger研究所负责整理和维护,提供了一个非常完善可信的基因注释体系
我们可以访问一下它的官网:https://www.gencodegenes.org/
(PS:国内普通浏览器有时候打不开这个官网,去谷歌浏览器上打开看看)
我们可以看到这个网站只提供人和小鼠的注释信息,我们先来看看人的信息~(非常完善,而且版本也很多可供下载)
Human.png
四:两种注释文件的区别
我们来看一下Ensembl下载下来的GTF文件;
#!genome-build GRCh37.p13
#!genome-version GRCh37
#!genome-date 2009-02
#!genome-build-accession NCBI:GCA_000001405.14
#!genebuild-last-updated 2013-09
1 ensembl_havana gene 11869 14412 . + . gene_id "ENSG00000223972"; gene_version "4"; gene_name "DDX11L1"; gene_source "ensembl_havana"; gene_biotype "pseudogene";
1 havana transcript 11869 14409 . + . gene_id "ENSG00000223972"; gene_version "4"; transcript_id "ENST00000456328"; transcript_version "2"; gene_name "DDX11L1"; gene_source "ensembl_havana"; gene_biotype "pseudogene"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; tag "basic";
1 havana exon 11869 12227 . + . gene_id "ENSG00000223972"; gene_version "4"; transcript_id "ENST00000456328"; transcript_version "2"; exon_number "1"; gene_name "DDX11L1"; gene_source "ensembl_havana"; gene_biotype "pseudogene"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; exon_id "ENSE00002234944"; exon_version "1"; tag "basic";
1 havana exon 12613 12721 . + . gene_id "ENSG00000223972"; gene_version "4"; transcript_id "ENST00000456328"; transcript_version "2"; exon_number "2"; gene_name "DDX11L1"; gene_source "ensembl_havana"; gene_biotype "pseudogene"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; exon_id "ENSE00003582793"; exon_version "1"; tag "basic";
1 havana exon 13221 14409 . + . gene_id "ENSG00000223972"; gene_version "4"; transcript_id "ENST00000456328"; transcript_version "2"; exon_number "3"; gene_name "DDX11L1"; gene_source "ensembl_havana"; gene_biotype "pseudogene"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; exon_id "ENSE00002312635"; exon_version "1"; tag "basic";
再来看一下GENCODE的GTF文件:
##description: evidence-based annotation of the human genome (GRCh38), version 28 (Ensembl 92)
##provider: GENCODE
##contact: gencode-help@ebi.ac.uk
##format: gtf
##date: 2018-03-23
chr1 HAVANA gene 11869 14409 . + . gene_id "ENSG00000223972.5"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; level 2; havana_gene "OTTHUMG00000000961.2";
chr1 HAVANA transcript 11869 14409 . + . gene_id "ENSG00000223972.5"; transcript_id "ENST00000456328.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "processed_transcript"; transcript_name "RP11-34P13.1-002"; level 2; transcript_support_level "1"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000362751.1";
chr1 HAVANA exon 11869 12227 . + . gene_id "ENSG00000223972.5"; transcript_id "ENST00000456328.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "processed_transcript"; transcript_name "RP11-34P13.1-002"; exon_number 1; exon_id "ENSE00002234944.1"; level 2; transcript_support_level "1"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000362751.1";
chr1 HAVANA exon 12613 12721 . + . gene_id "ENSG00000223972.5"; transcript_id "ENST00000456328.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "processed_transcript"; transcript_name "RP11-34P13.1-002"; exon_number 2; exon_id "ENSE00003582793.1"; level 2; transcript_support_level "1"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000362751.1";
chr1 HAVANA exon 13221 14409 . + . gene_id "ENSG00000223972.5"; transcript_id "ENST00000456328.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "processed_transcript"; transcript_name "RP11-34P13.1-002"; exon_number 3; exon_id "ENSE00002312635.1"; level 2; transcript_support_level "1"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000362751.1";
主要的区别除了第一列chr
以外,就是第九列的信息顺序不太一样。但是真的就什么区别都没有吗?
What is the difference between GENCODE GTF and Ensembl GTF?
The gene annotation is the same in both files. The only exception is that the genes which are common to the human chromosome X and Y PAR regions can be found twice in the GENCODE GTF, while they are shown only for chromosome X in the Ensembl file.
In addition ,the GENCODE GTF contains a number of attributes not present in the Ensembl GTF, including annotation remarks, APPRIS tags and other tags highlighting transcripts experimentally validated by the GENCODE project or 3-way-consensus pseudogenes (predicted by Havana, Yale and UCSC). Find here the complete list of tags.
简单来说:在X与Y的同源区域,有一些基因是在两条染色体上都有的,Ensembl只在X染色体注释了1次,GENCODE在X与Y染色体各注释了1次。
同时,GENCODE的GTF在第9列的可选列里面增加了很多新的tag信息来记录更多的注释内容。这些在Ensembl的注释里面也是没有的。
5:今天的Q&A
1:想办法查找到human X与Y染色体的同源区域(PAR regions)的坐标,并想办法验证,GENCODE确实对这些同源区域注释了2次;
先说思路:假定能够找的到那个文件的话,那么ChrX 或者是ChrY上应该是会导游PAR标签的。所以我就先把所有ChrX或者是ChrY的注释全都切下来了。然后再进行比较。(这个办法是在是本办法,希望有大神可以指点了!)
下载gft文件:
image.png
利用awk命令
awk '$1=="chrY"' gencode.v29.annotation.gtf >> CHRY.GTF
awk '$1=="chrX"' gencode.v29.annotation.gtf >> CHRY.GTF
awk -F "\t" '{print $NF}' CHRY.GTF |awk -F ";" '/tag "PAR"/{print $0}' > 1.gft
是不是少了一行命令呢?
其实我再看这个生成的结果的时候就已经可以看出问题啦
Y染色体同源区段
tag信息
3:开放思考:如果让你做可变剪切的分析,你是用RefSeq的注释,还是Ensembl的注释还是GENCODE的注释?请说出你的理由。
个人观点:注释可变剪接的话,我会选则GENCODE注释,它的注释的信息更加全面,而且就X,Y同源区段来说的话也注释到了,这样就可以知道,如果发生可变剪接的话是在X还是在Y上。
网友评论