引言

以PacBio公司SMRT技术为代表的第三代单分子荧光测序平台为以测序为基础的科学研究带来了革命性的突破。目前该技术广泛应用于基因组Denovo、全长转录本检测、重测序等多个方向，并且在染色体结构变异（SV）的检测中有着不可替代的优势。

上一期我们聊了PB三代测序数据的类型、预处理、比对等基本内容。本期我们就一起聊聊基于比对结果检测染色体结构变异分析方法，没看过上一期的小伙伴可以移步文末查看往期回顾，希望大家看完收获满满。

1.染色体结构变异检测

1.1结构变异简介

染色体结构变异（SV）通常定义是长度大于50bp的插入（INS）、缺失（DEL）、重复（DUP）、倒位（INV）、易位(TRA)以及倒位重复（INVDUP）等复杂嵌合变异，其中占比最大的就是插入和缺失。结构变异各类型示意图如下所示：

关于染色体结构变异的定义和种类感兴趣的小伙伴可以留言，我们视情况另开一篇单聊。本次重点介绍SV检测的分析方法。

1.2 SV检测方法比较和介绍

三代SV检测软件比较少，目前常见的有PBHoney、SMRT-SV、Sniffles、PBSV等，下面文献测评SV检测的结果：

左边四列是PB结果，右边是ONT结果。从图中可以看出，Sniffles+NGMLR在SV检测时确实有出色的表现，同时由于读长的优势，三代数据检测SV方面，有碾压二代数据的优势。（注：文章发表时，PBSV并未发布）

1.3 Sniffles检测SV

Sniffles检测SV命令：

**sniffles -s 3 -z 2 -t 4 --report_seq --genotype -m aligned.sort.bam -v out.vcf --tmp_file ./tmp** 
** ##-s检测SV最少支持的reads数，-z检测SV最少支持的ZMW或者polymerreads数，-t指定线程数，--report_seq结果中输出SV序列，--genotype计算SV的基因型和定位频率AF**

需要注意的是Sniffles最佳上游比对软件是NGMLR，不少文献也使用MinMap2+Sniffles的组合进行SV检测，这两套组合适用范围也较广，同时支持PB和ONT平台的数据分析。再次强调，目前Sniffles不能使用pbmm2比对的结果。

小技巧：-s参数需要特别注意，此参数直接决定了检出SV的数量和准确性，一般来说10X CLR可以设置3，30X CLR数据可以设置5~10，相同数据量和文库片段长度下，此参数设置越高，得到的SV越准确，同时也会减少检出数量，具体关系可以参考下图文献结果。

上图是NGMLR和Sniffles开发团队在Nature Methods发表论文的结果，根据同一套数据的不同深度和不同-s参数的设置，检测最近SV检测结果的精确率和召回率。

同时从上图也可以看出一般10X CLR数据就可以进行一些基本的SV检测，而想要达到很好的效果，30X左右CLR数据是一个比较好的选择。

1.4 PBSV检测SV

PBSV检测SV命令：

 **##生成svsig文件**
** pbsv discover sample.svsig.gz**

** ##输入svsig文件和参考基因组进行变异检测**
** pbsv call  -A 3 -O 3 ucsc.hg19.fa sample.svsig.gz output.vcf**
** ## -A 在全部样品中忽略小于给定数值reads支持的SV结果，-O 在每个样品中忽略小于给定数值reads支持的SV结果**

除上述示例中的参数，PBSV还有诸多筛选参数，包括输出的SV类型、长度、基因型等等，需要大家根据自己的实际项目情况，进行探索，选择合适参数。全部参数说明如下图所示：

2.结构变异结果说明

以50bp为临界，不论是小突变（SNV/INDEL）还是大的染色体结构变异（SV），通常情况下生成的结果文件均为vcf文件格式，也是信息分析中比较常见的一种格式，度娘里也有详尽的结果文件格式说明。这里只做简单介绍，辅助没有相关分析经验的小伙伴能更快地看懂结果文件。

2.1结构变异vcf文件说明

使用文本编辑器或者vim等工具打开vcf文件，开头通常是两个##的说明信息，从上到下通常是变异检测软件和版本，参考基因组的染色体名称长度等信息，以及下面非#开头正文各列的解释，一般都很详细，所以仔细看说明信息，其实不用查找资料也能看懂vcf文件给出的变异信息。

VCF的header信息
VCF的正文表头

一个#开头的就是正文表头了，一般除最后样品名称外，表头名称都是固定的，ALT、INFO中记录的内容在上面都有详细解释。如果有多个样品合并的VCF结果，则会在后几列追加样品名称列，里面记录了每一个突变在每个样品里的具体信息：
VCF的变异信息
下图展示的是FORMAT和样品两列，只选取两行进行展示：

FORMAT规定样品列展示信息的内容和格式，如示例中就是展示基因型：支持此处和参考基因组一致的reads数：支持此处是检出变异的reads数，多个样品也是一样的道理。

2.2结构变异结果特殊说明

尽管vcf文件格式高度统一，在不同的软件或检测类型中，还是有一些小小的特别之处，如Sniffles结果中：

有些INS类型长度均为999M，在最终结果中，要尽量剔除这些结果，可以和正常结果对比下，别的突变都是PASS状态，而这个是UNRESOLVED（未解析），表示软件无法判断此处是否有变异。

此外，TRA（易位）的表示方式也比较特殊：

在本该是突变类型（INS/DUP等）的地方，变成了“N[chr....[” 这样的格式，这种表示方式代表了一个片段从一个染色体的某处转移到了另一个染色体的某处，如红框这里，表示chr15从0到22491442碱基链接了chr14 染色体的106771975-到末端。如果是N在前（N[......[），则表示文件第一列的染色体从头到第二列的位置，链接了括号里的染色体位置到括号染色体末尾。

上面介绍的概念有点小绕，不过大家自己对照图里去看，应该是能够理解的，同时新版的vcf格式官方说明文件里也有这种表示方式的介绍。此外除了上述格式表示TRA外，有些软件可能也用BND的标签来表示TRA，大家在使用的过程中多加注意就好。

3.小结

今天作为PB三代重测序系列的第二篇，从数据分析的角度介绍了重测序SV检测的分析过程和注意事项。结合第一篇内容，我们能完整地掌握PB三代人重检测SV的分析过程。
希望大家在使用的过程中灵活结合自己的项目情况，选择最优方案。纸上得来终觉浅，绝知此事需躬行，各位小伙伴，条件允许的情况下，不妨和小编一起实践起来~

下一篇会和大家聊聊SV多样品合并分析的场景，比如肿瘤成对样品如何筛选过滤，遗传病家系样品如何进行家系分析等等。

最后啰嗦一句，喜欢的同学们不妨转发给更多需要的同胞，共同学习和进步是我们创刊更新的不竭动力。

参考
1.Sedlazeck F J , Rescheneder P , Smolka M , et al. Accurate detection of complex structural variations using single-molecule sequencing[J]. Nature Methods, 2018.
2.Audano P A, Sulovari A, Graves-Lindsay T A, et al. Characterizing the major structural variant alleles of the human genome[J]. Cell, 2019, 176(3): 663-675. e19.
3.Wenger A M, Peluso P, Rowell W J, et al. Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome[J]. Nature biotechnology, 2019, 37(10): 1155-1162.