美文网首页基因组学
WisecondorX 拷贝数变异检测 NGS NIPT

WisecondorX 拷贝数变异检测 NGS NIPT

作者: 茄子_0937 | 来源:发表于2021-03-01 11:01 被阅读0次

    背景

    低深度全基因组测序(sWGS),主要通过覆盖深度的方法(DOC)检测CNV。

    DOC工具主要包含三个分析步骤:data normalization, segmentation and aberration calling。data normalization 是获得可靠分析结果的基础,不进行normalization,拷贝数变化的分析会受到 GC content, mappability, polymorphisms, sample quality, false computational assumptions的影响。

    DOC工具将基因组划分成很多窗口

    所有基于覆盖度的CNA工具都是从统计特定位点的reads数量开始的。通常情况下这些数字可以被理解为拷贝数变化的度量。因为sWGS无法完全覆盖整个基因组,所以会把参考基因组划分为大的windows 或 bins 以展现全基因组覆盖的特征。

    所以对于bins大小的考量很重要,bins越大则reads数量越多,输出结果中的噪音就越小。然而较大的bins会降低检测的分辨率。由于reads数量符合二项分布,通过bins size和覆盖范围,可以计算出高斯噪音的水平。合适的bins size应该根据测序深度选择。

    Normalization techniques

    标准化的方法可以分为三大类:

    • 收集一组相同实验流程的健康人样本。来自这组样本的bins可以作为正常的二倍体对照,以用于标准化。主要的缺点是要用到相当多的正常参考品;
    • 无参法,通过人类参考基因组的 GC contetnt、mappablility来标准化,但是性能一般较差;
    • 使用肿瘤和阴性对照法,可以正确区分出肿瘤特异性的突变。但是一个患者多个样本会有很多问题。

    接下介绍主流工具使用的标准化方法

    无参标准化方法

    • FREEC 对 bin-wise read count 和 GC content 进行多项式拟合,接着 mappability 信息用于过滤或者额外的标准化;
    • QDNAseq 使用loess fit 来同时校正 GC content 和 mappability bias;
    • BIC-seq2 认为 bins size 是标准化中一个特别重要的参数。

    有参标准化

    • cn.MPOS,使用混合泊松分布。对每个位点使用单独生成的概率模型。
    • CNVkit,直接使用正常样本集合标准化对应的bins。除此之外,也使用了一些基本的样本内部标准化方法,可以有效消除样本自身的质量问题。使用 rolling median technique 来标准化content, repetitiveness and target density(对于WGS没影响)相似的区域。
    • WISECONDOR 有效解决了样本间的差异问题。参考样本数据不但直接用于bins 标准化(PCA),而且还确定了样本内部的bins参考对应。

    黑名单过滤无信息位点

    人类基因组中存在大量充满问题的重复区,如微卫星、中心粒、端粒会妨碍短序列比对的正确性。这些位点会使得数据标准化变得非常复杂。所以基本所有CNA软件都有一个黑名单来过滤这些区域。无参方法会预先设定一个列表而其它方法则会从参考样本中得出。

    分割和异常检测

    经过标准化和黑名单处理得到的基因图谱,被分割成不同区段。在每个区段里位点的拷贝数是相同的。理想情况下,对于常染色每个染色体在二倍体水平下形成一个区域,除非出现亚染色体水平的异常。接受度最高的分割方法是circular binary segmentation(CBS)。最后,通过统计学方法找出和参考有明显差异的区段。

    材料与方法

    样本和bin size选择

    100个健康样本作为参考库。测试集使用20个健康人样本和20个拷贝数异常样本。NIPT组使用100kb的 bin,因为检测的异常大小在5Mb以上

    DNA分离

    血液收集后24h内4℃ 1600g离心10min,分离得到血浆。血浆再4℃ 16000g 离心10min 取上清。

    文库准备

    5ng上样,预计最低10million reads。

    Circular binary segmentation

    常染色体CBS使用DNAcopy R包。参数α(检测断点的P-value)设定为1e^{-5}。每个segment至少包含两个bins。最后连续bins的平均值作为这个segement的ratio。

    median sigment variance

    观测median sigment variance(MSV_o)作为噪音的衡量。定义为,一组sigment 对应的方差的中值。期望的median sigment variance(MSV_e)和 bin size , read depth 成反比。

    MSV_o\approx MSV_e\sim \frac{1}{read \ \ depth\ \ *\ \ bin\ \ size}

    Constitutional aberration calling

    染色体异常的计算使用log_2尺度,用观察到的拷贝数和预期拷贝数的比率表示(CN)

    Deletion = log_2(\frac {obs\ \ CN} {exp\ \ CN})=log_2(\frac{1}{2})=-1

    Duplication=log_2(\frac{obs\ \ CN}{exp\ \ CN})=log_2(\frac{3}{2}) \approx 0.58

    异常检测的边界取有1/3的拷贝数差异。这样可以取到更多的真阳性结果。

    Deletion \ \ cutoff=log_2(\frac{2-1/3}{2})\approx-0.26

    Gain \ \ cutoff=log_2(\frac{2+1/3}{2})\approx 0.22

    结果

    使用黑名单获得无偏差reads比率

    噪音和标准化

    测序深度对方差影响较大。除了覆盖度,标准化算法可能会忽视主要的偏差来源,导致对健康样本的整体平坦度,正态性和有限的噪声轮廓产生负面影响。样本总体平坦度和正态性可以分别通过profile-wide variance 和 Lilliefors normality test检测。两个值越小越好。

    WISECONDOR's limitations

    对性染色体的拷贝数检测效果不佳。WISECONDOR 使用 Stouffer’s z-score sliding window 的方法进行segment 并检测拷贝数异常。当bins size 很小时(15kb 运行了24h)这种算法运行很慢,而且当染色体有大量异常时会出错。尤其异常片段内的异常无法检测出来。

    WisecondorX

    改进版的程序使用相同的标准化方法,其它的改进如下:

    • 性染色体检测:在参考品准备时,使用Y染色体片段,在高斯混合模型下训练数据,将男性和女性样本区分开。所有样本都使用以产生的常染色体参考,不同的性别组用于产生性染色体参考。当时,检测一个新样本时,会自动预测性别,并选择正确的参考。

    • Segmentation:使用CBS算法替代 Stouffer’s z-score sliding window。能够提高运行速度和检测效果。用参考集中的突变信息对CBS和区段z-score进行权重分析,通过这个方法可以对不太精确的bins 降低权值。

    • Bin-wise,segmentalandchromosomalz-scores.: 在任意位点发生的变化,无关与大小,z-score的计算可以用下面的方程计算。

      Z_{segment(n\rightarrow m)}=\frac {\mu_w(R_n,R_{...},R_m)-\mu(\mu_w(r_{1,n},r_{1,...},r_{1,m}),...,\mu_w(r_{p,n},r_{p,...},r_{p,m}))}{std(\mu_w(r_{1,n},r_{1,...},r_{1,m}),...,\mu_w(r_{p,n},r_{p,...},r_{p,m}))}

      公式Z_{segment(n\rightarrow m)}表示bins 从n 到m所组成的segment的z-score。\mu_w()利用参考构建时bins的差异程度得到的权重值来计数bins的均值。\mu() 和std()计算一般的均值和标准差。R_n代表所检测样本在bins n处的reads ratio。r_{2,n}表示参考集中第二例样本在同一位点的reads ratio,总共有p个健康参考样本。

    • 异常检测: 尽管可以计算z-scores ,用户也能自定义阈值,使用log_2 ratios。诊断学的一个关键原则进一步支持这一方法:如果观察到与健康状态有微小偏差,就应该进行研究,而不考虑其统计意义。

    讨论

    低深度全基因组测序已经成为拷贝数变异检测(>10kb)的选择之一。和大多数其它的工具不同,WisecondorX并不是单纯基因统计学的过程来检测异常。文章认为,只有匹配到特定的分析类型时,这些操作得到的结论才是可靠的。

    统计学的方法要适应检测的场景:对于NIPT,我们预计没有或者一个波动很小的偏差,算法需要把这种偏差检测出来;但是这种方式不能用于高度突变的肿瘤样本。此外,如果我们对本身存在的染色体异常感兴趣,对于NIPT,我们就需要检测到比胎儿DNA比例更高的变异幅度,而这种场景的变换是统计学无法优化的。最后要注意的是,在诊断背景下,显著性水平似乎不那么重要:一个可能的变异仍然应该被报告,即使没有达到用户定义的显著性水平。

    相关文章

      网友评论

        本文标题:WisecondorX 拷贝数变异检测 NGS NIPT

        本文链接:https://www.haomeiwen.com/subject/hyutqltx.html