美文网首页
数据质控进行的过滤

数据质控进行的过滤

作者: Peng_001 | 来源:发表于2020-06-12 23:24 被阅读0次

在数据质控中,通过测序数据碱基质量值与碱基分布值的评估,我们可以了解一个测序数据的好坏。

但在实际的测序中,并非所有的数据在数据质控后都是好或坏,用或不用的非此即彼的关系。而是根据相应的需求,对测序数据进行过滤

过滤选项

1. 去除非基因组序列


主要是建库过程中加入的接头、引物、index 等。

若不进行去除,则测序分析结果中可能会包含这些外来片段。

2. 去除N碱基过多的reads

含有过多的N碱基会导致后面无法比对。

一般N包含总长10%以上的reads 就会被去除。

3. 去除低质量reads

一般以Q20 为标准,设定Q20 以下质量值的碱基占总碱基的固定比重。若高于某个标准,则删去该reads。


4. pairend 要留心

若采用了PE测序,则只要成对的read 有一条不满足,则另外对应的一条也要去掉。

5. 去除duplication

若存在两对read,且这两对read 的read1 与read2 均完全一致。这样的情况称为duplication。

对于测序来说,duplication 产生的原因主要是建库过程中打断不随机造成的。


一般来说建库序列长度越大,越容易产生duplication(更容易被切成相同的片段)。

影响:
如果duplication 过多,则后续处理过程可能会将其视为基因组上的重复序列片段,因而影响结果。

特别之处

一些测序样本本身就比较小的序列,其自身原因就会造成duplication 的产生。

  • RNA-seq 与16S 测序的duplication 不能去除,其并非是打断不随机造成的。
  • 去除duplication 会造成丰度信息缺失。

6. 去除insertsize 偏差过大read

insertsize 就是插入片段的大小,就是文库片段的长度,也就是测序reads的物理距离。它是实际的文库长度,比设定的文库长要更加精确。


估计insertsize

使用reads 文件与基因组文件,借助短序列比对,得到比对文件,通过文件进行拼接。

在比对结果文件中,通过定位到染色体位置,即初始位置A1,加上其reads 长度就可以得到末端A2位置。



同样可以得到双末端测序的另一边的数据。



B2-A1 也即insertsize。

原则

相关文章

网友评论

      本文标题:数据质控进行的过滤

      本文链接:https://www.haomeiwen.com/subject/ozsgtktx.html