这两天B10K发布了三百多个鸟类物种的基因组。从Genbank下载了八十多个,根据基因组序列和gff注释文件用脚本提了exon和CDS,发现其中很多基因组的exon和CDS提出来居然完全一致。
居然有这么多是一样的(最左边一列是文件大小) 这几个是RefSeq库的基因组,相比之下比Genbank靠谱的多如下图所示,exon和CDS是不同的,exon转录后经过剪接,形成了一条成熟mRNA,这条成熟mRNA包括头部的5‘UTR、尾部的3’UTR和中间的CDS区域,而头尾的UTR分别是由其中的两个exon提供的(不一定是如图中所示的第一个exon和最后一个exon,应该也可能是由中间的提供的,因为有可变剪接(只是猜测,不懂深入的内容))。从这一层理解上,同一个基因exon和CDS的区别应该就是UTR:exon-UTR=CDS。
但是我个人觉得CDS应该是mRNA层次的术语,而exon是基因组层面的术语,所以CDS应该是每个基因一条才对。从这点来说,或许目前的基因组注释有点小问题。另一方面,RefSeq库中的参考基因组就比GeneBank靠谱的多,毕竟是人工筛选过的。
image.png 可变剪接的一些模式结论:以后尽量下载RefSeq库的基因组。
网友评论