在数据质控中,通过测序数据碱基质量值与碱基分布值的评估,我们可以了解一个测序数据的好坏。
但在实际的测序中,并非所有的数据在数据质控后都是好或坏,用或不用的非此即彼的关系。而是根据相应的需求,对测序数据进行过滤
。
过滤选项
1. 去除非基因组序列
主要是建库过程中加入的接头、引物、index 等。
若不进行去除,则测序分析结果中可能会包含这些外来片段。
2. 去除N碱基过多的reads
含有过多的N碱基会导致后面无法比对。
一般N包含总长10%以上的reads 就会被去除。
3. 去除低质量reads
一般以Q20 为标准,设定Q20 以下质量值的碱基占总碱基的固定比重。若高于某个标准,则删去该reads。
4. pairend 要留心
若采用了PE测序,则只要成对的read 有一条不满足,则另外对应的一条也要去掉。
5. 去除duplication
若存在两对read,且这两对read 的read1 与read2 均完全一致。这样的情况称为duplication。
对于测序来说,duplication 产生的原因主要是建库过程中打断不随机造成的。
一般来说建库序列长度越大,越容易产生duplication(更容易被切成相同的片段)。
影响:
如果duplication 过多,则后续处理过程可能会将其视为基因组上的重复序列片段,因而影响结果。
特别之处
一些测序样本本身就比较小的序列,其自身原因就会造成duplication 的产生。
- RNA-seq 与16S 测序的duplication 不能去除,其并非是打断不随机造成的。
- 去除duplication 会造成丰度信息缺失。
6. 去除insertsize 偏差过大read
insertsize 就是插入片段的大小,就是文库片段的长度,也就是测序reads的物理距离。它是实际的文库长度,比设定的文库长要更加精确。
估计insertsize
使用reads 文件与基因组文件,借助短序列比对,得到比对文件,通过文件进行拼接。
在比对结果文件中,通过定位到染色体位置,即初始位置A1,加上其reads 长度就可以得到末端A2位置。
同样可以得到双末端测序的另一边的数据。
B2-A1 也即insertsize。
网友评论