在上个BBQ的学习,我们已经进入到了转录组的相关学习,简单的了解到了它和基因组的比对上的差异。接下来在转录组的分析中,有一个文件非常重要,它就基因注释文件,通常是GFF或者是GTF文件,那么他们到底是什么呢?有什么区别嘛?
一:基本介绍
前面说到从DNA到蛋白质,需要经过转录和翻译。但是在转录的过程一般会经历可变剪接。所以在进行转录组的序列比对的时候,需要处理跨外显子之间的reads。这时候,我们需要一个文件来告诉哪些地方是基因的外显子区域或内含子区域。以及这个基因本身的一些属性。
这个文件就叫基因注释文件!
GFT文件示意图GTF=General Transfer Format
GFF=General Feature Format
参照着ensembl网站的说明文件(GFF/GTF File Format)。
首先这个文件里的内容是用Tab分割,每一个列都必须要有一个值,如果是空的就用'.'来代替。
1:序列名字,染色体或者是scaffold的名字,可有或者没有“chr”。但是需要和genome FASTA文件中的染色体名对应。
2:数据的来源,可以是ENSEMBL,NCBI等
3:基因的注释类型,如外显子,内含子等等
4:起始的位置,序列的位置是从1开始的
5:终止的位置
6:打分值:一个浮点数
7:匹配到的是正链(+)还是负链(-)
8:匹配到的密码子的位置,有0,1,2三个数字,如果是1的话则匹配到了2个密码子。
9:以分号分割的,提供了附加的信息
---------------------------------------------------分割线------------------------------------
二:如何下载基因注释文件呢?
UCSC genome browser (UCSC Genome Browser-网址链接)
2.1 从UCSC genome browser下载human的GTF文件的步骤:
(1). 打开UCSC genome browser网站
(2). 在Tools里选择 Table Browser
(3). 打开Table Browser以后,设置相关的需要内容
(4). 点击get output即可下载
(ps:hg19 = human genome 19是常用的human参考基因组版本号;
RefSeq gene是全部经过人工检查过的gene注释文件;)
UCSC genime browser网站
在tool里面点Table Browser
设置相关参数
2.2 Ensembl下载human的GTF文件
是Ensembl(Ensembl 网址链接)
- 对于动物相关的信息都请访问Ensembl的动物站:http://www.ensembl.org/index.html
- 对于植物相关的信息都请访问Ensembl的植物站:http://plants.ensembl.org/index.html
我们在这里还是以下载human hg19版本的GTF文件为例,操作步骤如下:
- 登陆Ensembl网站,并跳转到hg19版本界面
- 继续选择跳转到hg19版本界面
- 在hg19版本的Ensembl界面中选择download
- 在download页面中选择Download a sequence or region
- 在左边栏选择 FTP download 然后选择下载 GTF文件
-
选择注释好的GTF进行下载
Ensembl网站,跳转到hg19界面
进入到hg19的界面
点击download
点击下载
下载压缩包
--------------------------------------------------分割线------------------------------------
三:提问环节
3.1:你认为GTF/GFF的文件格式设计合理吗?为什么?
(ps:认识比较浅,大家参照一些孟大的参考解答)
3.1答1
3.1答2
- 如果告知,transcript_id为NM001308203.1,gene_id为SGIP1, 在转录本上的坐标为101,那么对应基因组的坐标是多少?请写出答案与简要程序思路。注释信息如下:
chr1 hg19_ncbiRefSeq exon 66999252 66999355 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq start_codon 67000042 67000044 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq CDS 67000042 67000051 0.000000 + 0 gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq exon 66999929 67000051 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq CDS 67091530 67091593 0.000000 + 2 gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq exon 67091530 67091593 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq CDS 67098753 67098777 0.000000 + 1 gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq exon 67098753 67098777 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq CDS 67105460 67105516 0.000000 + 0 gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq exon 67105460 67105516 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq CDS 67108493 67108547 0.000000 + 0 gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq exon 67108493 67108547 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq CDS 67109227 67109402 0.000000 + 2 gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq exon 67109227 67109402 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq CDS 67136678 67136702 0.000000 + 0 gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq exon 67136678 67136702 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq CDS 67137627 67137678 0.000000 + 2 gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq exon 67137627 67137678 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq CDS 67138964 67139049 0.000000 + 1 gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq exon 67138964 67139049 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq CDS 67142687 67142779 0.000000 + 2 gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq exon 67142687 67142779 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq CDS 67145361 67145435 0.000000 + 2 gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq exon 67145361 67145435 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq CDS 67154831 67154958 0.000000 + 2 gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq exon 67154831 67154958 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq CDS 67155873 67155999 0.000000 + 0 gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq exon 67155873 67155999 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq CDS 67160122 67160187 0.000000 + 2 gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq exon 67160122 67160187 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq CDS 67184977 67185088 0.000000 + 2 gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq exon 67184977 67185088 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq CDS 67194947 67195102 0.000000 + 1 gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq exon 67194947 67195102 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq CDS 67199431 67199563 0.000000 + 1 gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq exon 67199431 67199563 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq CDS 67205018 67205220 0.000000 + 0 gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq exon 67205018 67205220 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq CDS 67206341 67206405 0.000000 + 1 gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq exon 67206341 67206405 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq CDS 67206955 67207119 0.000000 + 2 gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq exon 67206955 67207119 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq CDS 67208756 67208775 0.000000 + 2 gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq stop_codon 67208776 67208778 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq exon 67208756 67216822 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
我们知道转录本的坐标101,那么在基因组上其end-start>101才可能。第一个坐标是6699355-66999252+1=104,这个转录本是mapping到这个exon上的,其位置是6699355+101-1=6699455
3: 下载这两个文件解压缩以后的大小是否有差异,差异大不大?
下载信息
解压信息
4:用less命令看一下两个问题,观察transcripid, geneid是否相同,再看看别的地方是否一样?
这两个文件的transcrip_id和gene_id均不一样,Ensemblxiazai de you ENSC开头,而UCSC开始的有NM开头。Ensembl注释的信息更全面一些。
Ref:
1: 生物信息学100个基础问题 —— 第24题 GFF,GTF到底是什么?
2:生物信息学100个基础问题 —— 第25题 GTF/GFF的注释是怎么来的,应该从哪里下载?
3:https://genome.ucsc.edu/index.html
4:http://asia.ensembl.org/index.html
网友评论