美文网首页
测序 reads 根据碱基质量截短过滤2种策略

测序 reads 根据碱基质量截短过滤2种策略

作者: BeeBee生信 | 来源:发表于2020-06-08 11:02 被阅读0次

测序 reads 除了移除接头往往还根据碱基质量进行一定的截短,尽量把 reads 中低质量区域(靠近末端)移除,保证整体的 reads 质量。

这个过滤过程有2种方法,第一种计算累计的质量值(减去设定的阈值后),第二种是滑窗法(Sliding Window)。

以截短 3' 端为例,第一种方法从末端碱基开始先计算每个碱基与设定阈值的差值,然后在累计差值最小的地方截断。假设设定阈值为10,下面例子来源于 Cutadapt:
原始碱基质量值: 42, 40, 26, 27, 8, 7, 11, 4, 2, 3
计算与阈值差值: 32, 30, 16, 17, -2, -3, 1, -6, -8, -7
计算差值累计: (70), (38), 8, -8, -25, -23, -20, -21, -15, -7
在累计差值为-25时最小因此在这里截断,保留 42, 40, 26, 27 这几个质量值的碱基。

滑窗法计算每个 window 平均碱基质量,如果某个窗口平均质量低于阈值则从该窗口开始截断,留下窗口左边碱基丢弃剩余部分(该窗口也被丢弃)。像 fastp 的 -r/--cut_right 描述如下:
"move a sliding window from front to tail, if meet one window with mean quality < threshold, drop the bases in the window and the right part, and then stop."
所以这个如果很不巧 reads 开头的窗口就低质量,那么整个 reads 会被丢弃。

[参考]
Martin, Marcel. "Cutadapt removes adapter sequences from high-throughput sequencing reads." EMBnet. journal 17.1 (2011): 10-12.
Chen, Shifu, et al. "fastp: an ultra-fast all-in-one FASTQ preprocessor." Bioinformatics 34.17 (2018): i884-i890.

相关文章

  • 测序 reads 根据碱基质量截短过滤2种策略

    测序 reads 除了移除接头往往还根据碱基质量进行一定的截短,尽量把 reads 中低质量区域(靠近末端)移除,...

  • NGS010 测序数据质控

    Total data/reads:总数据量/总reads数目 Q30:碱基测序质量值,Q=-10logP,P为碱基...

  • NGSQC Toolkit(转录组分析之data cleanin

    NGSQC Toolkit用于进行高通量测序数据的质量检查和数据过滤,具有去接头,去除非ATGC碱基,去除低质量碱...

  • 外显子信息分析简介学习

    外显子测序: SE:单端测序 PE:双端测序,测得reads更长 测序深度:测序得到的待测区域总碱基数与待测区域大...

  • 测序知识汇总

    目前测序使用的碱基质量格式:

  • 数据过滤

    步骤:(0)perl 手动去除第一行index六个碱基(1)去除低质量的reads(质量值Q≤19的碱基占总碱基的...

  • 基因组文章构成

    1.genome survey 数据过滤去除测序原始数据中可能包含低质量、接头污染以及含 N 过高的 reads ...

  • 测序质控和基因组组装原理

    二代质控 二代测序中,每测一个碱基会给出一个相应的质量值,这个质量值是衡量测序准确度的。碱基的质量值13,错误率为...

  • RNASeq实战练习-数据过滤与质控

    trim-galore过滤低质量的reads 转录组分析 | 使用trim-galore去除低质量的reads和a...

  • 数据质控进行的过滤

    在数据质控中,通过测序数据碱基质量值与碱基分布值的评估,我们可以了解一个测序数据的好坏。 但在实际的测序中,并非所...

网友评论

      本文标题:测序 reads 根据碱基质量截短过滤2种策略

      本文链接:https://www.haomeiwen.com/subject/mhlltktx.html