美文网首页生信基础知识
contig,scaffold,N50,L50

contig,scaffold,N50,L50

作者: Thinkando | 来源:发表于2020-02-24 20:38 被阅读0次

    scaffold其实是基因组组装时的概念。涉及到的相关概念如下:

    • reads:就是我们测序产生的短读序列,通常一代和三代的reads读长在几千到几万bp之间,二代的相对较短,平均是几十到几百bp。
    • contig:中文叫做重叠群,就是不同reads之间的overlap交叠区,拼接成的序列就是- contig
    • scaffold: 是比contig还要长的序列,获得contig之后还需要构建paired-end或者mate-pair库,从而获得一定片段的两端序列,这些序列可以确定contig的顺序关系和位置关系,最后contig按照一定顺序和方向组成scaffold,其中形成scaffold过程中还需要填补contig之间的空缺。
    image.png
    image.png

    链接:https://www.zhihu.com/question/36452709/answer/683390664

    • N50,L50


      image

    上图就是大多数时候可能得到的情况,除了少数极长的scaffold外,就是一大堆零碎的小片段。这个时候如果用平均数来算,为(10+5+2+1+1+1+1)/7=3,有点惨不忍睹……
    于是就有了N50和L50,计算过程为:
    ① 将序列从大到小排列。
    ② 计算总序列长度。
    ③ 从最大的序列开始累加。
    ④ 当加到某一个序列的总和,刚好超过总序列长度的一半时,此序列的长度即为N50,这是第几条序列则为L50。
    在上面的例子中,总长度为21,总长度的一半为10.5。第一条序列为10bp,总和为10bp <10.5bp,不满足终止条件;第二条序列为5bp,总和为10+5=15bp > 10.5bp,计算结束。此时N50 = 5bp,L50=2。

    相关文章

      网友评论

        本文标题:contig,scaffold,N50,L50

        本文链接:https://www.haomeiwen.com/subject/oujsxhtx.html