这次分享的是来自瑞士苏黎世联邦理工学院计算机科学系Valentina Boeva教授于2012年发表在BIOINFORMATICS(IF:6.937, 2020)上的文章Control-FREEC: a tool for assessing copy number and allelic content using next-generation sequencing data。
简要
越来越多的癌症研究使用下一代测序(NGS)数据来检测各种类型的基因组变异。然而,即使研究人员手头有这样的数据,单核苷酸多态性阵列被认为是评估拷贝数改变,特别是杂合性损失(LOH)的必要条件。在这里,我们提出了Control-FREEC工具,可以自动计算拷贝数和从NGS数据的等位基因的内容图谱,从而预测基因组改变的区域,如gain,loss和LOH。Control-FREEC根据输入对齐的读取,构建拷贝数和B-等位基因频率谱。然后,这些图谱被归一化、分段和分析,以分配每个基因组区域的基因型状态(拷贝数和等位基因含量)。当提供匹配的正常样本时,Control-FREEC区分体细胞事件和种系事件。Control-FREEC能够分析二倍体的肿瘤样本和被正常细胞污染的样本。低可映射性区域可以使用提供的可映射性轨迹从分析中排除。
介绍
癌症基因组通常显示拷贝数改变(CNA)和/或杂合性丢失(LOH)。特定区域的基因异常可能导致癌症的侵袭性,并与临床结果相关。为了检测CNA和LOH区域,最近大量使用单核苷酸多态性(SNP)阵列。此外,下一代测序(NGS)已经开始取代SNP阵列用于预测CNA。最近的一项研究提出ExomeCNV是一种利用外显子组测序数据预测CNAs和LOH的工具。然而,利用全基因组测序数据检测LOH区域,以及更普遍地预测基因型状态(拷贝数和等位基因含量),仍然没有解决。这样做的主要挑战是基因组位置的非均匀读取覆盖率[例如,由于不同的可映射性和GC含量]和比对偏差(参考等位基因覆盖率通常高于替代等位基因的覆盖率)。因此,与SNP阵列的情况相比,产生的信号噪声更大且更难处理。
在这里,我们介绍了Control-FREEC(Control-FREE Copy number and allelic content caller)—— 一种注释基因型并发现CNA和LOH的工具。Control-FREEC继承了FREEC的许多特征(拷贝数变化评估和正常细胞污染评估)以及SNP阵列GAP算法的一般方法。Control-FREEC以输入对齐后的reads,然后构建并标准化拷贝数图谱,构建B等位基因频率(BAF) profile,对两个图谱进行分段,使用拷贝数和等位基因频率信息将基因型状态归因于每个片段,然后注释基因组改变。如果有对照(匹配正常)样本可用,则对照FREEC可区分体细胞变异和种系变异。
方法
Control-FREEC的工作流程包括三个步骤:
(i)拷贝数配置文件的计算和分割;
(ii)平滑BAF profiles的计算和分割;
(iii)预测最终基因型状态,即每个片段(如A、AB、AAB等)的拷贝数和等位基因含量。
(i) 拷贝数概况的计算主要按照我们之前的出版物进行(见No.6)。该程序最重要的特点是:(a)如果没有控制样本,可以使用GC内容和映射能力配置文件来标准化(normalize)读取计数;(b)overdiploid基因组的适当特征;(c)在构建肿瘤基因组的拷贝数谱时,校正正常细胞可能造成的污染。新的Control-FREEC工具也可以用于非哺乳动物基因组,包括许多新的用户控制设置,如(a)定义程序在低可映射区域的行为(b)选择调用CNA所需的最小连续窗口数。
(ii) 我们通过先前为SNP阵列引入的BAF来表征等位基因内容。我们将考虑评估等位基因含量的基因组位置列表限制为仅已知SNP。 B等位基因是指SNP数据库(dbSNP)中的可选变体。在所考虑的基因组中纯合的SNP不提供有关等位基因含量的信息(在SNP阵列中,它们被表示为无信息);因此,假定的纯合位置被丢弃。如果在实际纯合条件下由于测序错误而发生变异的概率大于指定的阈值,则丢弃一个位置。我们计算每个已知的假定杂合SNP位置的总覆盖率和B等位基因覆盖率。对于每个窗口 i,我们计算BAF值的中值:Medj=median(abs(xij−0.5)),其中 {xij} 是剩余SNP位置的BAF值。我们使用与拷贝数相同的基于Lasso的算法分割{Medj}。
(iii) 考虑到之前检测到的拷贝数,我们通过选择对应于最大对数似然的等位基因含量,独立预测每个基因组片段的基因型状态。
首先,我们结合从拷贝数和中值BAF片段中发出的断点来获得可能只有一种状态的基因组片段。其次,如前所述检测每个段的拷贝数状态。如果CNA存在于大多数细胞中,则在确定该区域的确切拷贝数方面不存在歧义(有关存在亚克隆或正常污染情况下的策略的更多详细信息,请参阅论文补充材料)。第三,在给定区域拷贝数的情况下,我们将高斯混合模型(GMM)与观测到的BAF值进行固定均值拟合,并选择提供最高对数似然的模型。例如,对于拷贝数为2的区域,我们拟合了两组分模型(“AA”和“BB”等位基因的混合物)和三组分模型(“AA”、“AB”和“BB”,条件是“AB”的最小权重)。GMM中的成分意味着取决于正常DNA的污染水平。
输入和输出:输入由SAM堆组成(http://samtools.net/pileup.shtml)和一个dbSNP文件。如果提供了参考基因组,则控制数据集是可选的。输出包含CNA和LOH区域列表,以及每个窗口的读取计数、拷贝数、BAF和基因型信息。如果控制(匹配正常)数据集可用,则每个事件都被标注为体细胞或生殖系。
结果
我们应用对照FREEC检测神经母细胞瘤患者肿瘤/正常数据集中的CNAs和LOH区域(∼30倍覆盖率,未发布数据)。对照组FREEC检测到体细胞CNA和LOH区域,覆盖75%的肿瘤基因组(图1),并且能够识别基因型状态,尽管正常细胞污染了肿瘤样本(估计肿瘤细胞的百分比为60%)。
我们的结果与SNP阵列分析结果一致。我们在Control-FREEC的结果之间获得了95.4%的一致性和GAP,我们将其应用于为同一肿瘤样本生成的 SNP 阵列数据。
结论
Control-FREEC是一种使用NGS数据自动检测CNAs和LOH区域的工具。即使没有对照实验和/或基因组是多倍体,它也能准确地调用基因型状态。它修正了GC含量和可映射性偏差。对于肿瘤样本,Control-FREEC能够评估正常细胞的污染水平。该软件是用C++语言编写的,可以免费使用。
参考文献
Boeva,V .et al. (2011) Control-free calling of copy number alterations in deep-sequencing data using GC-content normalization.Bioinformatics,27, 268–269.
Caren,H.et al. (2010) High-risk neuroblastoma tumors with 11q-deletion display a poor prognostic, chromosome instability phenotype with later onset.Proc. Natl Acad. Sci. USA,107, 4323–4328.
Hanahan,D. and Weinberg,R.A. (2011) Hallmarks of cancer: the next generation,Cell, 144, 646–674.
Harchaoui,Z. and Lévy-Leduc,C. (2008) Catching change-points with lasso.Adv. Neural Inform. Process. Syst.,22, 617–624.
Popova,T.et al. (2009) Genome Alteration Print (GAP): a tool to visualize and mine complex cancer genomic profiles obtained by SNParrays.Genome Biol.,10, R128.
Sathirapongsasuti,J.F.et al. (2011) Exome sequencing-based copy-number variation and loss of heterozygosity detection: ExomeCNV .Bioinformatics,27, 2648–2654.
Sherry,S.T.et al. (2001) dbSNP: the NCBI database of genetic variation,Nucleic Acids Res.,29, 308–311.
Suzuki,S.et al. (2000) An approach to analysis of large-scale correlations between genome changes and clinical endpoints in ovarian cancer.Cancer Res,60, 5382–5385.
网友评论