好久没有更新了,BBQ开始继续更新啦~今天的BBQ关注的是基因注释这一块,举个例子来说,分析转录组,我们得到了一系列的基因的list,我们如何注释这些基因呢?
1:常见的基因注释的数据库
常用的gene注释有不同的来源,这个来源一般是某一个组织通过一定的方法来确定下来的参考gene的相关注释信息。比如常用的有:
- RefSeq Gene注释 ; 来自于NCBI,对gene的不同转录本进行注释,1个转录本对应1个编号成为RefSeq id,例如对于可以翻译成蛋白的转录本,都会以NM_开头如NM_015658;对于不能翻译的转录本,都会以NR_开头如NR_027055;不同注释的情况如下图(ps:注释的数据库来源不一样,编号不一样)
README.txt截图- Ensembl注释;对gene的不同转录本进行注释,以ENSG开头的表示Ensembl gene_id如ENSG00000227232,以ENST开头的表示Ensembl transcript id如ENST00000438504.
- UCSC gene注释;对gene的不同转录本进行注释,一般是类似uc004cpf这样的名称。
Q: 这里有三种注释,那么哪种注释会更好点呢?
A:没有绝对的好坏之分,都是很详细的
2: RefSeq Gene
1:首先我们来打开官网 看一下~
我们可以看到如果想找到基因/蛋白/mRNA的注释可以直接从FTP下载,从RefSeq的官方网站上可以下载到常见物种的参考序列信息。
不过呢,这里面还是human的信息注释得最为全面。关于里面注释的信息~
2:我们这里以人类的数据为例:
官网,点击Human Genomic Resource and Download
3:点击之后进入官网,然后我们可以有不同的版本,GRCh38和GRCh37(这版本就是Hg19)
Human Genome Resources
4: 点击Gff3下载就可以了
如果是在系统的话可以用wget下载
###这个是下载到了当前目录下了
wget ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/annotation/GRCh37_latest/refseq_identifiers/GRCh37_latest_genomic.gff.gz ./
下载了之后然后解压就可以看到里面的内容了:关于内容格式的话可以参照一下这个:
BBQ(生信基础问题24-25):GTF,GFF是什么?
我们来看一下今天的问题:
尝试下载hg19的GFF3文件,并简单比较GFF3与GTF文件的不同?
我们对比一下上面和下面两个注释的情况,我们可以得到一下几个不一样:
1:第一列不一样,对于gft来说,第一列是染色体的编号(会有带chr和不带chr的情况),而对于gff3来说,第一列是指出注释的对象。会以NC开头
2:对于gff3,第二列会说这个注释的来源信息是什么,而gft没有。
3:GTF每行的第九列,有四列基本的信息如下:分别是
gene_id
,gene_name
, gene_source
,gene_biotype
GTF
(PS:如果是可以转录的话,携带的信息会多:如transcript_id
,exon_number
,transcript_source
, exon_id
等信息)gft的最后一列注释信息
4:但是对于GFF3的话,最后一列不同而且信息会更完善一点:(挑有用的说一下,感觉有的注释没啥用)
ID
:GFF3文件中的标识符
Dbxref
:相当于可以查询的基因ID(A database cross reference.)
Parent
,表明该feature所属的上一级feature 的ID,这种关系可用于exons-transcripts,transcripts-genes,可以看出一个feature可以拥有多个子feature
Genebank
,是说在genebank里面的编号
Product
, 这个基因的产物,会简单的说明功能(如果还没明确的功能的话就没有简单的功能介绍)
transscript_id
, 转录本的编号NR开头
pseudo
是不是假基因,如果是会写true
Ref:
1:生物信息学100个基础问题 —— 第26题 什么是RefSeq Gene? 怎么给NCBI反馈问题?
(这个专栏里还有写如何给NCBI写信报错的步骤,需要的可以参考一下~)
2:https://www.ncbi.nlm.nih.gov/projects/genome/guide/human/index.shtml
3:http://gmod.org/wiki/GFF3
4:https://github.com/The-Sequence-Ontology/Specifications/blob/master/gff3.md
网友评论