基因组拼接中常见的名词解释

作者: 大号在这里 | 来源:发表于2020-08-12 10:32 被阅读0次

    Reads:高通量测序平台产生的序列就称为reads。

    Contig:拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。

    Scaffold:基因组de novo测序,通过reads拼接获得Contigs后,往往还需要构建454 Paired- end库或llumina Mate- pair库,以获得一定大小片段( 如3Kb、6Kb、 10Kb、 20Kb )两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。

    Contig N50:Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1 , Contig 2 , Contig ...... Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。举例: Contig 1+ Contig 2+ Contig 3+Contig 4=Contig 总长度*1/2时,Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。

    Scaffold N50:Scaffold N50与Contig N50的定义类似。Contigs 拼接组装获得一些不同长度的Scaffolds。 将所有的Scaffold 长度相加,能获得一个Scaffold总长度。然后将所有的Scaffolds 按照从长到短进行排序,如获得Scaffold 1, Scaffold 2 , Scaffold 3.......Scaffold 25。 将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50。举例:Scaffold1+ Scaffold2+ Scaffold3+Scaffold4+ Scaffold5= Scaffold总长度*1/2时,Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。

    测序深度和覆盖度:
    ■测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M ,测序深度为10X ,那么获得的总数据量为20M。
    ■覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。 例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。

    相关文章

      网友评论

        本文标题:基因组拼接中常见的名词解释

        本文链接:https://www.haomeiwen.com/subject/bszedktx.html