CNV简介:
拷贝数异常(copy number variations, CNVs)是属于基因组结构变异(structural variation),根据大小可分为两个层次:显微水平(microscopic)和亚显微水平(submicroscopic)。显微水平的基因组结构变异主要是指显微镜下可见的染色体畸变, 包括 整倍体或非整倍体、缺失、插入、倒位、易位、脆性位点等结构变异。亚微水平的基因组结构变异是指 DNA 片 段 长 度 在 1Kb-3Mb 的基因组结构变异, 包括缺失、插入、重复、重排、倒 位、DNA 拷贝数目变化等,这些统称为 CNV (也称为拷贝数多态性(copy number polymorphisms, CNPs)。
CNV 检测策略:
对于分析CNV,目前已经开发出了很多的检测软件。经典策略为Read-pair, split-read,read-depth和assembly。先简单介绍一下这四个策略的原理:
Read-pair(RP):
- 原理:RP是最早出现的算法,利用双端测序插入片段长度分布来检测CNV, 也称之为PEM,pair end mapping方法。当插入片段长度过长或者过短(高于或低于阈值)时,说明相比于参考基因组来说,样本基因组结构出现了插入或者缺失。
- 缺陷:受到测序读长的影响,该方法适用于检测中等长度的insertion和deletion, 对过小的插入不敏感,而且比较依赖比对的准确性,无法分析低复杂度的segmental duplication区域。
- 软件:BreakDancer、PEMer、Ulysses。
Split-read(SR):
- 原理:对于长片段缺失或插入,在于参考基因组比对时,会出现比对不上的情况。SR方法利用一端能够比对,另外一端比对不上的reads来识别CNV。另外一端比对不上,可能是存在CNV, 通过将单独的reads进行拆分,使其能够正确比对到参考基因组上,拆分的点就是CNV的断裂点。
- 缺陷:只利用了单端reads, 读长进一步受到限制,所以该方法只适用于检测小规模的插入和缺失。另外,该策略也依赖比对结果的准确性。
- 软件:Pindel,PRISM,SVseq2,Gustaf。
Read-Depth(RD):
- 原理:RD方法的原理基于检测区域拷贝数和其测序深度的相关性进行分析。一般情况下,缺失表示该区域的测序深度较低,插入区域的测序深度则相反。对应检测区域,采用滑窗的方式进行测序深度分布统计,由于测序对于不同GC含量的区域会有一定的偏好性,因此在统计时需要用利用gc含量在校正区域原始的测序深度。该算法采用滑动窗口的方式,统计每个窗口内的矫正后测序深度分布,利用校正之后的RD值,对邻近的bin进行聚类,理论上聚为一类的bin具有相同的cnv拷贝数。该方法一般需要与基线进行比较,对CNV做出更为准确的判断。该理论为主流的分析策略。
- 缺陷:滑动窗口的大小对结果影响较大,当窗口很大时,一些长度很短的CNV信号就会被掩盖。
- 软件:CNVnator,ERDS,ReadDepth,CNVrd2,CNVkit,ExomeDepth,DECoN等。
Assembly(AS):
- 原理:AS方法利用测序得到的短序列进行组装,将组装的contig与参考基因组进行比较,从而确定发生了结构变异的区域。
- 缺陷:组装的精确依赖测序读长和算法的准确度,而且组装对硬件资源的消耗特别大,并不是一个理想的CNV检测的算法。
网友评论