我们在看一段序列的时候,更多希望的是看到基因是否可以转录翻译成有功能的蛋白质以实现功能
所以我们在ncbi或者ensemble的基因序列区域时,我们往往看到时基因信息的转录的rna信息
pre-rna是前提rna,包含了内含子和外显子,但是在后期rna会切掉内含子,保留外显子,内含子就叫非编码rna(non- conding rna),ncrna。然后成熟的rna也会有一段不翻译的区域,就是所谓的utr(untranslated region)区域了,所以要把utr区域和内含子区分开,成熟的rna是utr区域和cds(coding sequence)
需要注意的一点是,我们在使用ANNOVAR注释我们的变异snp时,里面的exion仅代表coding exonic protion。

在基因组学的分析中,我们最重要的两个文件是参考基因组的序列文件Genome.fa 和 高水平的基因组注释文件gtf或者gff文件GTF与GFF文件格式的区别与转换 - 简书 (jianshu.com)
所以我想通过我们常用的两个文件来说一说这几个重要定义,参考基因组的序列文件就不多说了,主要还是来说说注释文件。
因为是gff和gtf注释文件,所以肯定从dna转录到rna水平上的注释,所以都是用rna和表示,一般就是mRNA,lnc_RNA,下级单位还有exon和CDS等外显子、内含子、mRNA,CDS区别 - 简书 (jianshu.com),各个exon的排序是从后往前,或者说是从右往左如图:

所以DNA和RNA的关系应该是这样的,如图:

内含子和外显子的分界线在于:GU-AG法则。即每个内含子的开始两个碱基都是是GU(或GT),最后两个是AG。
对于DNA来说是分为非编码区和编码区,非编码区可能会有一些调控元件,编码区包含外显子和内含子。对于下一步的转录会剪切掉内含子(可变剪切),形成mRNA,即编码RNA,当然也有非编码RNA。mRNA中包括CDS和UTR。注:不论是DNA的编码还是RNA的编码都是指是否转录生成有功能的蛋白。
下面是编码和非编码RNA的图:

网友评论