Ensembl FTP网站 ( ftp://ftp.ensembl.org/pub/current_fasta ) 收集了大多数物种的DNA, protein, CDS, ncRNA信息
1. DNA 不用说,就是基因组信息
2. protein,就是编码的蛋白质信息
3. CDS (Coding DNA Sequence)即编码序列
DNA转录成mRNA,mRNA经剪接等加工后翻译出蛋白质,所谓CDS就是与蛋白质序列一 一对应的DNA序列,且该序列中间不含其它非该蛋白质对应的序列,不考虑mRNA加工等过程中的序列变化,总之,就是与蛋白质的密码子完全对应。
4. ncRNA (Non-coding RNA)即非编码序列
非编码RNA(Non-coding RNA)是指不编码蛋白质的RNA。其中包括rRNA,tRNA,snRNA,snoRNA 和microRNA 等多种已知功能的 RNA,还包括未知功能的RNA。这些RNA的共同特点是都能从基因组上转录而来,但是不翻译成蛋白,在RNA 水平上就能行使各自的生物学功能了。非编码RNA 从长度上来划分可以分为3类:小于50 nt,包括microRNA,siRNA,piRNA;50 nt到500 nt,包括rRNA,tRNA,snRNA,snoRNA,SLRNA,SRPRNA 等等;大于500 nt,包括长的mRNA-like 的非编码RNA,长的不带polyA 尾巴的非编码RNA等等
5. 目前(2018.04.15)收录了96种物种的CDS和ncRNA信息,分别如下。一部分物种名翻译自科学网 ( http://blog.sciencenet.cn/blog-3372875-1090620.html )
网友评论