scaffold其实是基因组组装时的概念。涉及到的相关概念如下:
- reads:就是我们测序产生的短读序列,通常一代和三代的reads读长在几千到几万bp之间,二代的相对较短,平均是几十到几百bp。
- contig:中文叫做重叠群,就是不同reads之间的overlap交叠区,拼接成的序列就是- contig
- scaffold: 是比contig还要长的序列,获得contig之后还需要构建paired-end或者mate-pair库,从而获得一定片段的两端序列,这些序列可以确定contig的顺序关系和位置关系,最后contig按照一定顺序和方向组成scaffold,其中形成scaffold过程中还需要填补contig之间的空缺。
image.png
链接:https://www.zhihu.com/question/36452709/answer/683390664
-
N50,L50
image
上图就是大多数时候可能得到的情况,除了少数极长的scaffold外,就是一大堆零碎的小片段。这个时候如果用平均数来算,为(10+5+2+1+1+1+1)/7=3,有点惨不忍睹……
于是就有了N50和L50,计算过程为:
① 将序列从大到小排列。
② 计算总序列长度。
③ 从最大的序列开始累加。
④ 当加到某一个序列的总和,刚好超过总序列长度的一半时,此序列的长度即为N50,这是第几条序列则为L50。
在上面的例子中,总长度为21,总长度的一半为10.5。第一条序列为10bp,总和为10bp <10.5bp,不满足终止条件;第二条序列为5bp,总和为10+5=15bp > 10.5bp,计算结束。此时N50 = 5bp,L50=2。
网友评论