测序数据量？reads数目？cluster？

作者: 笺牒九州的怪咖 | 来源:发表于2022-03-03 10:59 被阅读0次

测序数据量？reads数目？cluster？
NGS010 测序数据质控
NGS020 测序数据量估算
数据表达定量
10×一个样本测多少数据量(G)合适？
python——提取fasta文件中10G的序列
Subread
基因组拼接中常见的名词解释
GC含量的偏好性
HiFi全基因组测序技术

首先，需要明确一点: 数据量大小其实就是碱基的个数。

那么，数据量大小的计算方法是：

单端测序

数据量=reads长度 X reads个数 (reads长度很容易得知，reads个数等于测序所得到的fastq文件的总reads数)

双端测序

数据量=单端reads长度 X 单端reads个数 X 2

通常测序数据量的单位都是用“G"表示，例如1G。需要强调的是，这里所说的G不是说测序文件在硬盘上的大小为1G，而是表示10亿个碱基。这是如何计算的呢？

首先，我们需要知道1个碱基=1 byte ；

其次是，1kb=10^3 byte 1M=10^6 byte 1G=10^9 byte。

所以，1G的数据量=10^9=10亿个碱基。

此外，测序数据量还有另外一种表示方式，即cluster。一个cluster表示一个DNA片段（对于RNA-seq，则表示一个片段化后的RNA分子）。比如说某一个样本测序数据量为30M 的 cluster。如果采用双端测序技术，每个cluster从两端都测一次，每次测150bp, 所以就会得到30M X 2=60M的reads数，然后reads数乘以每条read的长度就是我们最后的测序数据量（碱基数），即为60M X 150=9G的碱基数。

我们知道了测序数据量是如何计算的，那么问题来了，对于一个测序样本，需要测多少G 的数据量才能满足实验要求呢？要回答这个问题，首先要搞清楚几个概念。

测序深度（Sequencing depth）： 是指测序得到的碱基总量（bp）与基因组大小的比值，即测序深度=数据量大小 / 参考基因组大小。或者理解为基因组中每个碱基被测序到的平均次数。
测序覆盖度（Sequencing coverage）： 是指测序获得的序列占整个基因组的比例。或者可以理解为基因组上至少被检测到1次的区域（或者是碱基），占整个基因组的比例。

由于基因组中的高GC、重复序列等复杂结构的存在，测序最终拼接组装获得的序列往往无法覆盖有所的区域，这部分没有获得的区域就称为Gap。例如一个细菌基因组测序，覆盖度是98%，那么还有2%的序列区域是没有通过测序获得的。

测序深度与基因组覆盖度之间是一个正相关的关系，测序带来的错误率或假阳性结果会随着测序深度的提升而下降。

测序深度和覆盖度的示意图如下：

我们的期望是基因组上每个碱基至少被测序到3次（对SNP检测来说，一个位点至少要大于3次，才被认为有效）的概率大于0.99。

那么问题来了，多大的测序深度，才能满足基因组中每个碱基被测序到3次的概率大于0.99。

我们假设基因组大小为G, 假定每次测序可从基因组任何位置上随机检测一个碱基。那么对于基因组上某一个固定碱基位置，在一次测序（每测一个碱基为一次测序）中，该位置被命中的概率为P （P=1/G）。由于基因组 DNA 长度长，在一次测序中，每个碱基被检测到的概率很小。当我们的测序量为10G时，即进行10^9次测序过程，每个碱基被检测到的次数会显著增加。我们知道，当某事件出现的概率很小，而试验次数N很大时，该事件符合泊松分布。泊松分布是一种离散型随机变量的分布,它有一个特殊的性质即期望和方差均为λ。泊松分布的概率由参数λ所确定，N次试验中出现 x 次的概率为：

在实际应用中，对于所观察的稀有事件，我们先利用样本数据计算出平均值并用它来估计 λ。由于测序深度就是每个碱基被检测到的平均次数，因此可以看作成λ。根据这个公式，我们把x看作特定碱基被测到的次数，λ看作基因组的测序深度。在测序深度为10的情况下，根据公式 P(0)=4.5e-05,几乎不太可能测不到。一个碱基至少被测到一次的概率为1-P(0) ≈ 1。一个碱基至少被测到3次的概率为 1-P( 0)－P( 1) - P( 2) = 0.99。

从图1可以看出，10X的测序深度，能够满足基本的实验目的。

因此只要确定了测序深度，测序数据量就很好计算了。
数据量大小=测序深度X基因组大小。

最后总结：数据量大小=测序深度X基因组大小

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------I'm a line ! Thanks! --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

参考：https://zhuanlan.zhihu.com/p/40040208