美文网首页
什么是碱基质量值?

什么是碱基质量值?

作者: 上海唯那生物 | 来源:发表于2021-04-25 08:05 被阅读0次

上篇文章中我们为大家介绍了,原始数据质控的原因和主要流程,其中涉及到了一个叫“碱基质量值”的概念,本文就为大家讲一讲什么叫做碱基质量值

碱基质量中的质量非物理学中的“质量”,碱基质量值(quality score,Q-score),在生物物理学中是碱基识别出错概率的整数映射,Q=-10*lgP,其中P为碱基识别出错的概率。简单点来说是,在下机数据中每个序列的每个碱基都有一个质量值信息,我们通过识别这个质量值信息就可以了解到这个碱基被识别出错的概率是多少

其实,碱基的质量信息我们可以在数据的原始文件中查看到的。

二代测序平台双端测序获得的原始数据为fastq(或为压缩文件fq.gz)格式,每个样本有 fq1 和 fq2 两个文件,文件中为测序两端的 reads信息,序列通常按顺序一一对应。

文件中每条 read 包含 4 行信息,其中第一行和第三行由文件识别标志和读段名(ID)组成(第一行以“@”开头,第三行以“+”开头;第三行中 ID 可以省略,但“+”不能省略),第二行为碱基序列,而第四行是第二行中的序列内容每个碱基所对应的测序质量值

如下所示:

我们发现碱基序列对应的质量值都为单个的符号和字母,并非数字,要想了解质量值的实际数值我们需要破译一下。

碱基对应的质量值符号实际为ASCII码,需要将每个碱基对应的字符在ASCII码对照表中找到其对应的十进制数字,减去33即可得该碱基质量(Phred33体系)。

(图片来源:百度百科)

举个例子:

序列的第一个碱基的质量值为C,对应的十进制数值为67,67-33=34,Q=-10*lgP计算得P(碱基识别出错的概率)得0.0004。

质量值为20(常写作Q20),计算得P=0.01,测序正确率99.99%,质量值为30(常写作Q20),计算的p=0.001,测序正确率99.999%,既碱基质量越高,被测错的概率越低。

我们可以搜索二代测序仪器平台官网,查看各个测序仪器得到的碱基质量值区间。

(图片来源:Illumina官网)

Q30>85%代表序列中质量值大于30的碱基所占比例大于85%

好啦,碱基质量值的基本概念就介绍到这里了,下期再会。

更多微生态相关文章:

文献示例|宏基因组测序与分析

文献示例|细菌16S多样性测序与分析

细菌16S多样性文献解读-生物膜

相关文章

  • 什么是碱基质量值?

    上篇文章[https://link.zhihu.com/?target=https%3A//mp.weixin.q...

  • 华大测序仪器与原理

    Q30为何物? Q30:测序时每个碱基都会有质量值,如碱基质量值为20则表示该碱基的错误率为,10^(20/(-1...

  • 测序质控和基因组组装原理

    二代质控 二代测序中,每测一个碱基会给出一个相应的质量值,这个质量值是衡量测序准确度的。碱基的质量值13,错误率为...

  • 数据过滤

    步骤:(0)perl 手动去除第一行index六个碱基(1)去除低质量的reads(质量值Q≤19的碱基占总碱基的...

  • NGS010 测序数据质控

    Total data/reads:总数据量/总reads数目 Q30:碱基测序质量值,Q=-10logP,P为碱基...

  • Q30与Phred值

    转录组测序数据中,经常会出现Q30或Phred值,它们究竟是什么含义? Q30表示一个碱基的质量值,也表示该碱基错...

  • 生信软件 | Trimmomati (质量控制,修剪低质和接头序

    介绍 Trimmomati 用于去除 Illumina平台的FASTQ序列中的Adapter,根据碱基质量值修整F...

  • 数据质控进行的过滤

    在数据质控中,通过测序数据碱基质量值与碱基分布值的评估,我们可以了解一个测序数据的好坏。 但在实际的测序中,并非所...

  • 文库:碱基不平衡

    Q: 什么是碱基不平衡?    答:对于一个基因来说,它所包含的碱基种类越多,则碱基复杂度越高;如果各种碱基的百分...

  • 简并碱基

    简并碱基符号对应表 | 简并碱基 | 含义 | 正常碱基 | 互补碱基 || R | puRine | A/G |...

网友评论

      本文标题:什么是碱基质量值?

      本文链接:https://www.haomeiwen.com/subject/qmgrrltx.html