Aperture软件：不依赖比对算法精确检测ctDNA中的结构变

作者: 生信小书童 | 来源:发表于2021-11-22 18:29 被阅读0次

Aperture软件：不依赖比对算法精确检测ctDNA中的结构变
后缀树算法
比对算法总结(一)——基于哈希表结构的比对算法
基于微量cfDNA甲基化的液体活检如何开展？｜易基因
Manta:一款方便临床测序使用的快速检测结构变异和INDEL
早期肿瘤基因筛查靠谱吗？有没有必要去做早期癌症检测
算法
BWA和Bowtie的安装使用及区别
数据表达定量
【生信知识】---Nanopore测序的SV Calling流程

image.png

1 简介

这是中国医学科学院王晓月教授课题组2021年11月发表于《Briefings in Bioinformatics》上的一篇文章，主要介绍了新开发的ctDNA结构变异检测软件Aperture。ctDNA中SV和病毒检测是肿瘤精准医疗中的重要步骤，它有助于癌症监测和治疗方案的选择。由于ctDNA片段较短，在检测低频SVs以及复杂SVs时存在极大的困难。这篇文章介绍了Aperture软件，一种快速的SV 检测软件，它利用k-mer进行搜索、二进制label进行断点检测及断点聚类、利用UMI进行consensus。通过对ctDNA模拟数据、标准数据集、真实数据集的测试，Aperture软件相对于其他SV软件具有较高的灵敏度和特异性，特别是在跨越断点的重复区域。具体代码和说明见：https://github.com/liuhc8/Aperture

2 背景

1、大多数依赖于比对的SV检测软件：GRIDSS、Lumpy、SvABA、DELLY、CREST，利用配对reads或者部分序列（softclip）比对到不同位置进行SV检测。由于ctDNA片段较短，依赖比对的SV 检测工具在检测复杂SVs变异，特别是重复区域变异时存在很大的困难。目前的比对软件 BWA 在基因组重复区域的比对并不高效，不一定会输出最高质量的比对结果，这也限制了依赖比对的SV检测软件获得正确的断点信息。
2、Aperture 软件输入为原始的FASTQ文件，采用k-mer依赖的方法在3个不同的库中进行快速断点查找。断点快速检测采用的二进制标签的方法。最终输出结果包括断点位置，分子数，比对质量值这些信息。
3、Aperture在与SV caller 进行对比时，在稀释至0.1%-10%范围内都有较高的灵敏度和特异性。在三个真实cfDNA数据集中，Aperure 检出了其他工具没有检出的HBV病毒整合到TERT启动子区域的位点，并且检测到了包括重复序列区域的重排变异。Aperture 采用JAVA语言编写，并采用了多线程的方式。

3 算法实现

3.1 算法过程

（1）将参考基因组分成2500bp的大小，首先构建基因组 23-mer 序列与二进制labels相对应的文库，记录基因组的位置信息，如果基因组区域23-mer文库序列不唯一，构建41-mer文库和间隔种子序列文库（含有通配符可以精确匹配更长的重复区域）。参考基因组kmer库只需构建一次，后期可以多次使用。如图1 A所示
（2）由于ctDNA片段较短，PE reads 先进行合并，然后再切 23-mer 与23-mer文库、41-mer文库、spaced-seeds文库进行比对。（确定reads在基因组的大致位置）。如图1 B所示
（3）bitwise AND这个类似于局部比对，能找到发生融合reads。如图1C 所示
（4）对融合位点相同的reads进行聚类，并根据聚类信息，去除测序错误、PCR错误以及突变。如图1DE所示
（5）为了提高特异性，会对所有k-mer的比对质量以及支持k-mer的reads数量进行评估

image.png

3.2 k-mer文库构建

（1）构建基因组和反向互补基因组 23k-mer库，并进行排序。排序时为了减少内存限制，连续的3个k-mer，只取第一个进行排序。
（2）除了k-mer，每个k-mer对应的基因组位置也进行了排序
（3）将参考基因组分割成30000-65000bp的长度（Bloom Filter），随机给每个segment分配一个32-bit的二进制label(含有5个1)，记录每个k-mer相对于segment的偏移量，精确记录基因组的位置。为了排除k-mer查找时，基因组突变的影响，dbSNP数据库也加入了23-mer的文库。
（4）对所有的k-mers文库进行快速排序、去重。

3.3 reads过滤，reads合并，k-mer依赖的结果查询

对低质量的reads进行过滤，对PE reads进行合并，在k-mer字符串查找时也采用了加速算法

3.4 SV 断点的检测和候选reads聚类

通过上一步的k-mer查询可以获得reads的归属位置，如果一个reads含有不同的片段，就会对reads进行记录，同时对所有相同断点的reads进行汇总。去除测序错误、PCR错误以及突变。如图2所示

image.png

3.5 根据barcode过滤cfDNA数据

这里定义基因组结构变异为整合或插入缺失的基因组片段要大于50bp，所以Aperture软件对小于50bp的序列进行了过滤。对于没有SR支持的序列，VCF文件中标记为了“FAKE_BP”，这些可能是重复区域的假阳性融合。
C ：含有不同barcode序列的分子数
U ：只含有一条reads支持的barcode分子数
R=(C-U)/2 ：用于评估聚类的可靠性

4 结果

4.1 模拟ctDNA数据集各软件的比较

1、利用RSVSim（R包用于模拟结构变异）软件进行模拟cfDNA 融合数据。Wessim2 软件用于模拟捕获数据。在10%稀释数据集中，Aperture 有最高的灵敏度（77.5%）和最高的精确度（91.1%）。Aperture 有最高的F1-score(0.838)。在1%稀释数据集中，Aperture同样有最高的灵敏度和精确度，以及最高的F1-score。如图图3AB所示。
2、在10%稀释数据集中，Aperture检出了14 个独有的真阳性变异。这些reads支持中含有不完整的断点支持，只有一端有断点支持。这些独自检出的变异中还有一些断点处于重复区域，这些归因于Aperture采用了独特的k-mer查找的方案，搜索了三个不同的文库。Delly检测到了23个独有的真阳性变异，其中21个是倒位（INV），仔细核查原因后是Delly软件对倒位的要求较低。如图3C所示。
3、为了检测Aperture软件在超低频的表现，构建了稀释至0.8%，0.6%，0.4%，0.2%，0.1% 的梯度稀释数据集，Aperture都表现良好。如图3DE所示
4、在真实数据集和模拟数据集中，Aperture 需要较少的计算资源，但是能达到较快的速度。这些还是在不包括比对和排序的情况下。

image.png

image.png
补充PPV和灵敏度及F1-score的计算方法：

image.png

4.2 标准数据集中的表现

HD786的检测，能检测到两个大于50bp的SLC34A2/ROS1 和 CCDC6/RET 融合。

4.3 肺癌病人中ALK 融合的灵敏度和特异性用于癌症病人治疗监测

为了检测Aperture在真实癌症病人中的表现，对非小细胞肺癌患者的EML4-ALK 融合进行了检测。在这个研究中，患者接受了ALK抑制剂克挫替尼的治疗，文章对接受药物治疗到发生抗药性阶段的5个时间点进行了取样观测，所有样本都进行了UMI 超高深度测序。A1阶段是刚确EML4-ALK 阳性肺癌并接受药物治疗的阶段，Aperture, Lumpy, Delly and SViCT 对融合都进行了检出。但是，GRIDSS 初始结果检出，但没有通过他们的过滤条件。SvABA 和 CREST 在初始结果中都没有检出。A2阶段是接受克挫替尼治疗20天，Aperture和一些软件还可以检测到，这一阶段血清中的融合的比例较大的下降。在A3阶段所有样品都没检测到融合。在A4阶段，只有Aperture检测到了新的EML4-ALK(E20:E1)融合。在A5阶段，发生了药物抗性，所有软件都没有检测到EML4-ALK融合。在特异性方面，Apeture 获得最少的总支持数，具有较高的特异性。

image.png

4.4 检测肺癌病人样品中的复杂NTRK融合

NTRK 融合基因最近成为癌症免疫治疗的靶标，利用2例肺癌病人的血清，评估了对NTRK基因的检测。如表2所示：其中B1样本，TPR-NTR1融合所有软件都进行了检出。B2样本只有Aperture和GRIDSS软件能检出LMNA-NTRK1融合，通过对融合reads进行比对发现LMNA-NTRK1融合对儿包括9bp的插入序列和30bp的重复序列，如图4所示。其他SV callers 软件没有检出的原因可能是，比对软件会将重复区域序列判断为低比对质量，对该比断点进行过滤。此外，LMANA 基因并不在panel 的捕获范围内，reads覆盖会更低，更增加了检测的难度。

image.png

4.5 在肝癌cfDNA样本中检测整合至TERT基因中的HBV序列

HBV序列整合至癌症相关基因，在促进肿瘤发生过程中具有重要的作用。为了评估Aperture在病毒整合方面的表现，选择了3个肝癌病人（HBV整合在TERT基因）的血清进行检测。cfDNA 数据集使用针对TERT 启动子区域的panel 进行检测。与基因组SV检测不同，HBV病毒的基因组需要事先包括在参考基因组序列中。
如表3所示，Aperture、Lumpy 和 Delly 都有HBV整合检出能力，只有Aperture软件在3个样品中对HBV-TERT整合都进行了检出。

image.png

5 讨论

1、由于测序错误和错配，依赖比对的SV 检测方法可能会产生较多的假阳性，特别是在重复序列区域。为了提高检测的准确性，Aperture采用了独特的k-mer搜索的方法用于断点的检测。与构建单一的k-mer文库不同（ChimeRscope软件），文章构建了三个不同长度的k-mer文库用于k-mer的搜索。如果一个read 覆盖了重复区域，较短的k-mers不能进行匹配时，会采用较长的k-mers 重匹配到41-kmer文库和间隔种子文库。考虑到比对过程中会有错配的干扰，文章还构建了23-mers包含SNP位点的文库（db-SNP包含了已知的变异位点）。
2、与为所有区域分配所有可能的K-mer来源不同（这种情况重复区域会消耗大量的内存），文章开发了一种唯一固定二进制标签的系统。在这个系统中，Aperture可以检测断点用novo-kmers(无重复) 和重复k-mer。NovaBreak 只能检测novo-kmer，一般的融合在断点处至少有k个nova-kmers，但是对于重复区域的融合，novo-kmers 数量会严重下降，这时可以利用重复k-mer来确认断点的位置。对于重复区域，Aperture软件会选择跨越重复区域，直到确认唯一的基因组位置为止。
3、依赖于组装的SV检测方法具有广泛的用途，这是因为较短的reads可以组装成较长的contig，这样可以更准确的比对到基因组，使SV检测更加灵敏。但是，ctDNA长度比较短，只有166bp，组装的方法不适用于ctDNA数据的检测。此外，序列组装会消耗大量的计算资源。

6 参考文献

[1] Aperture: alignment-free detection of structural variations and viral integrations in circulating tumor DNA. Hongchao Liu, Huihui Yin, Guangyu Li, Junling Li, Xiaoyue Wang. Brief Bioinform. 2021;bbab290. doi:10.1093/bib/bbab290

Aperture软件：不依赖比对算法精确检测ctDNA中的结构变
1 简介这是中国医学科学院王晓月教授课题组2021年11月发表于《Briefings in Bioinforma...
后缀树算法
后缀树算法后缀树算法在现代的比对工具中也是非常常见的一类比对算法，常用的STAR软件利用的就是后缀树算法，而bo...
比对算法总结(一)——基于哈希表结构的比对算法
以前对比对算法不太了解，比对算法总结这个系列会分几篇文章对比对算法进行介绍，本篇主要介绍最原始的基于哈希表结构的...
基于微量cfDNA甲基化的液体活检如何开展？｜易基因
ctDNA甲基化是肿瘤早期或复发早期的重要信号，检测体液中的ctDNA甲基化对于肿瘤的筛查、早期诊断、预后判断、复...
Manta:一款方便临床测序使用的快速检测结构变异和INDEL
摘要：Manta软件可以从比对文件中检测SVs和indels。它主要开发用于检测单个样品的germline变异和t...
早期肿瘤基因筛查靠谱吗？有没有必要去做早期癌症检测
到底有没有必要做早期癌症ctDNA基因检测，癌症在我国每年新增300多万患者，发病率越来越年轻化，而ctDNA早期...
算法
程序 = 数据结构 + 算法软件 = 程序 + 软件工程
BWA和Bowtie的安装使用及区别
本学期在学习谈老师讲的基因组重测序数据比对和变异检测软件这一章时，我们了解到了短序列比对软件主要有以下几种：其...
数据表达定量
比对软件：hisat2 比对率至少70% 饱和性曲线：20M reads数据量即可检测到80%数据量碱基数目：...
【生信知识】---Nanopore测序的SV Calling流程
1.软件安装安装序列比对软件LAST 安装sam格式处理工具sambamba 安装bedtools 安装结构变异识...

Aperture软件：不依赖比对算法精确检测ctDNA中的结构变

1 简介

2 背景

3 算法实现

3.1 算法过程

3.2 k-mer文库构建

3.3 reads过滤，reads合并，k-mer依赖的结果查询

3.4 SV 断点的检测和候选reads聚类

3.5 根据barcode过滤cfDNA数据

4 结果

4.1 模拟ctDNA数据集各软件的比较

4.2 标准数据集中的表现

4.3 肺癌病人中ALK 融合的灵敏度和特异性用于癌症病人治疗监测

4.4 检测肺癌病人样品中的复杂NTRK融合

4.5 在肝癌cfDNA样本中检测整合至TERT基因中的HBV序列

5 讨论

6 参考文献

相关文章

Aperture软件：不依赖比对算法精确检测ctDNA中的结构变

后缀树算法

比对算法总结(一)——基于哈希表结构的比对算法

基于微量cfDNA甲基化的液体活检如何开展？｜易基因

Manta:一款方便临床测序使用的快速检测结构变异和INDEL

早期肿瘤基因筛查靠谱吗？有没有必要去做早期癌症检测

算法

BWA和Bowtie的安装使用及区别

数据表达定量

【生信知识】---Nanopore测序的SV Calling流程

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读