数据质控需要一些量化的指标,主要采用碱基含量和碱基质量来评价,所谓碱基含量也就是测序数据中A、T、C、G的分布情况,因为测序是随机的,所以A、T、C、G碱基应该满足碱基配对原则,A碱基含量等于T碱基含量,C碱基含量等于G碱基含量,并且A、T、C、G碱基比例也应该与基因组中的比例相同,也就是测序数据中这些含量应该与物种这些含量百分比相同。
碱基含量分布将所有的reads放在一起进行统计,其中纵坐标是碱基分布的百分比,横坐标是从第一个碱基到最后一个碱基,这里reads读长是90bp,所以是从1到90,后面还有一个1到90是reads2,那么从图中我们可以观察到A、T、C、G碱基含量是恒定的,而且与基因组的比例分布一致,这个图中还包含了N碱基的分布。因为测序数据中包含了N碱基,在机器读不出来或者分辨不出该是哪个碱基的时候,都替换为N。N碱基越少越好。有些时候在一些位点N碱基会突然
网友评论