美文网首页
GenBank部分基因组.gff信息存在的小问题:UTR注释不全

GenBank部分基因组.gff信息存在的小问题:UTR注释不全

作者: 杨康chin | 来源:发表于2020-12-07 15:49 被阅读0次

这两天B10K发布了三百多个鸟类物种的基因组。从Genbank下载了八十多个,根据基因组序列和gff注释文件用脚本提了exon和CDS,发现其中很多基因组的exon和CDS提出来居然完全一致。

居然有这么多是一样的(最左边一列是文件大小) 这几个是RefSeq库的基因组,相比之下比Genbank靠谱的多

如下图所示,exon和CDS是不同的,exon转录后经过剪接,形成了一条成熟mRNA,这条成熟mRNA包括头部的5‘UTR、尾部的3’UTR和中间的CDS区域,而头尾的UTR分别是由其中的两个exon提供的(不一定是如图中所示的第一个exon和最后一个exon,应该也可能是由中间的提供的,因为有可变剪接(只是猜测,不懂深入的内容))。从这一层理解上,同一个基因exon和CDS的区别应该就是UTR:exon-UTR=CDS。

但是我个人觉得CDS应该是mRNA层次的术语,而exon是基因组层面的术语,所以CDS应该是每个基因一条才对。从这点来说,或许目前的基因组注释有点小问题。另一方面,RefSeq库中的参考基因组就比GeneBank靠谱的多,毕竟是人工筛选过的。

image.png 可变剪接的一些模式

结论:以后尽量下载RefSeq库的基因组。

相关文章

网友评论

      本文标题:GenBank部分基因组.gff信息存在的小问题:UTR注释不全

      本文链接:https://www.haomeiwen.com/subject/hshtgktx.html