CNV变异分析策略介绍

作者: 静小沐 | 来源:发表于2020-11-11 17:06 被阅读0次
    CNV简介:

    拷贝数异常(copy number variations, CNVs)是属于基因组结构变异(structural variation),根据大小可分为两个层次:显微水平(microscopic)和亚显微水平(submicroscopic)。显微水平的基因组结构变异主要是指显微镜下可见的染色体畸变, 包括 整倍体或非整倍体、缺失、插入、倒位、易位、脆性位点等结构变异。亚微水平的基因组结构变异是指 DNA 片 段 长 度 在 1Kb-3Mb 的基因组结构变异, 包括缺失、插入、重复、重排、倒 位、DNA 拷贝数目变化等,这些统称为 CNV (也称为拷贝数多态性(copy number polymorphisms, CNPs)。

    CNV 检测策略:

    对于分析CNV,目前已经开发出了很多的检测软件。经典策略为Read-pair, split-read,read-depth和assembly。先简单介绍一下这四个策略的原理:

    Read-pair(RP):
    • 原理:RP是最早出现的算法,利用双端测序插入片段长度分布来检测CNV, 也称之为PEM,pair end mapping方法。当插入片段长度过长或者过短(高于或低于阈值)时,说明相比于参考基因组来说,样本基因组结构出现了插入或者缺失。
    • 缺陷:受到测序读长的影响,该方法适用于检测中等长度的insertion和deletion, 对过小的插入不敏感,而且比较依赖比对的准确性,无法分析低复杂度的segmental duplication区域。
    • 软件:BreakDancer、PEMer、Ulysses。
    Split-read(SR):
    • 原理:对于长片段缺失或插入,在于参考基因组比对时,会出现比对不上的情况。SR方法利用一端能够比对,另外一端比对不上的reads来识别CNV。另外一端比对不上,可能是存在CNV, 通过将单独的reads进行拆分,使其能够正确比对到参考基因组上,拆分的点就是CNV的断裂点。
    • 缺陷:只利用了单端reads, 读长进一步受到限制,所以该方法只适用于检测小规模的插入和缺失。另外,该策略也依赖比对结果的准确性。
    • 软件:Pindel,PRISM,SVseq2,Gustaf。
    Read-Depth(RD):
    • 原理:RD方法的原理基于检测区域拷贝数和其测序深度的相关性进行分析。一般情况下,缺失表示该区域的测序深度较低,插入区域的测序深度则相反。对应检测区域,采用滑窗的方式进行测序深度分布统计,由于测序对于不同GC含量的区域会有一定的偏好性,因此在统计时需要用利用gc含量在校正区域原始的测序深度。该算法采用滑动窗口的方式,统计每个窗口内的矫正后测序深度分布,利用校正之后的RD值,对邻近的bin进行聚类,理论上聚为一类的bin具有相同的cnv拷贝数。该方法一般需要与基线进行比较,对CNV做出更为准确的判断。该理论为主流的分析策略。
    • 缺陷:滑动窗口的大小对结果影响较大,当窗口很大时,一些长度很短的CNV信号就会被掩盖。
    • 软件:CNVnator,ERDS,ReadDepth,CNVrd2,CNVkit,ExomeDepth,DECoN等。
    Assembly(AS):
    • 原理:AS方法利用测序得到的短序列进行组装,将组装的contig与参考基因组进行比较,从而确定发生了结构变异的区域。
    • 缺陷:组装的精确依赖测序读长和算法的准确度,而且组装对硬件资源的消耗特别大,并不是一个理想的CNV检测的算法。

    参考:
    https://cloud.tencent.com/developer/article/1556091

    相关文章

      网友评论

        本文标题:CNV变异分析策略介绍

        本文链接:https://www.haomeiwen.com/subject/tlpebktx.html