测序深度

测序碱基总量

单端测序
=reads长度 * reads个数
双端测序
=单端reads长度 * 单端reads个数 * 2

通常测序数据量的单位都是用“G"表示，例如1G表示10亿个碱基。
此外，测序数据量还有另外一种表示方式，即cluster。一个cluster表示一个DNA片段（对于RNA-seq，则表示一个片段化后的RNA分子）。某一个样本测序数据量为30M 的 cluster。如果采用双端测序技术，每个cluster从两端都测一次，每次测150bp, 所以就会得到30M2=60M的reads数，然后reads数乘以每条read的长度就是最后的测序数据量（碱基数），即为60M150=9G的碱基数。

测序深度计算

测序深度（Sequencing Depth/depth of coverage）是指：测序得到的碱基总量（bp）与基因组（转录组或测序目标区域大小）的比值，是评价测序量的指标之一。衡量基因组中每个碱基被测序到的平均次数。

通常表示为1X、2X、3X、...(1、2或3倍覆盖)。

有效平均测序深度（mapped depth）：比对上基因组的数据/去N区后的基因组大小。

seq depth =  LN/G
L：读段长度
N：读段数目
G：测序目标区域大小

覆盖度

覆盖度（genome coverage/breadth of coverage）是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在，测序最终拼接组装获得的序列往往无法覆盖所有的区域，这部分未覆盖的区域就称为Gap。coverage可以理解为基因组上至少被检测到1次的区域占整个基因组的比例。

示例

对于全基因组
Depth = (6 * 28nt) / 112nt = 1.2 fold
Coverage = (46nt - 5nt) / 112nt = 36.6%

对于target区域
Depth = (6 * 28nt) / 46nt = 3.7 fold
Coverage = (46nt - 5nt) / 46nt = 89.1%

对于position
Depth = 6 fold

测序深度的理论计算

如何估算测序数据量

期望是基因组上每个碱基至少被测序到3次（对SNP检测来说，一个位点至少要大于3次，才被认为有效）的概率大于0.99。

假设基因组大小为G, 假定每次测序可从基因组任何位置上随机检测一个碱基。那么对于基因组上某一个固定碱基位置，在一次测序（每测一个碱基为一次测序）中，该位置被命中的概率为P （P=1/G）。由于基因组 DNA 长度长，在一次测序中，每个碱基被检测到的概率很小。而测序量增大时每个碱基被检测到的次数会显著增加。当某事件出现的概率很小，而试验次数N很大时，该事件符合泊松分布。泊松分布的概率由参数λ所确定。在实际应用中，利用样本数据计算出平均值并用它来估计 λ。把x看作特定碱基被测到的次数，λ看作基因组的测序深度。在测序深度为10的情况下，一个碱基至少被测到一次的概率为1-P(0) ≈1。一个碱基至少被测到3次的概率为 1-P( 0)－P( 1) - P( 2) = 0.99。

碱基的覆盖深度符合泊松分布，某个碱基没有被测序到的概率为P(X=0) = e-c ，这相当于整个基因组的未覆盖率，而基因组的覆盖率则为1- e-c

在保证shotgun打断完全随机的理想情况下，碱基的覆盖深度完全符合泊松分布图，在10X的时候，基因组覆盖率即可达到100%。在实际实验操作中，打断不可能完全随机，打断的随机性根据样品情况，打断片段大小而改变。打断片段越大，其随机性也越差。环化大片段文库的随机性要低于小片段文库。

人基因组仍然存在很多Gap和N区域，究其原因在于存在很多高GC和高度重复序列。由于这些区域的存在，全基因组重测序的随机性会与理论会有一定的偏差，且在测序过程中某些序列测不出来，基因组覆盖度只能接近却达不到100%。

测序深度选择

测序深度

对于全基因组测序（WGS）来说，人类全基因组大约3G，健康人一般需要测到30X，即获得90G有效数据；要可靠地检测基因组中的SNP和 INDEL，至少需要测到35X，产生105G的有效测序数据 [1]

人类基因中大约有180,000个外显子，占人类基因组的1%，约30MB。对于全外显子测序（WES）来说，由于目标区域的异质性增加，以及探针50%的捕获效率，需要更大的平均读取深度才能获得与WGS相同的覆盖范围，覆盖89.6-96.8％的目标碱基，需要测到80X [1]。

ENCODE2曾利用H1人胚胎干细胞做过评估，若研究对象是RPKM>10的基因，每个样本测到36 M reads就可以准确定量80％的基因表达。然而，对于低表达水平的基因（FPKM<10），要测到80 M reads才能准确定量。所以，如果需要在整个转录组准确定量所有基因（包括lncRNA基因），那么样本需要测到80M以上；如果只是研究表达量高的转录本的整体表达变化，那么每个样品36 M reads就足够了。

如果关注基因表达差异的分析，可以考虑适当牺牲样品的测序深度，增加样品数目，尽管这会导致每个RNA的测序精度减低。少量样本的深度测序虽然能检测到低水平表达的转录本表达差异，但是只有这种差异可重复时才能讨论其生物学意义，否则只能是假阳性结果。

[1] Sequencing depth and coverage: key considerations in genomic analyses