作者按
BreakDancer是认可度最高的call染色体结构变异的软件,因为它灵敏度很高,但是假阳性也很高。
文章发在nature,原理就是寻找比对断点,然后寻找read pairs。
概述
官方文献为
http://www.nature.com/nmeth/journal/v6/n9/abs/nmeth.1363.html
官方manual网址为
https://github.com/genome/breakdancer
原理
(待有时间补充)
安装
GitHub上clone即可
git clone https://github.com/genome/breakdancer.git
运行脚本
#1. 生成配置文件
perl ~/Software/breakdancer/perl/bam2cfg.pl ../testsample.bam > test.cfg
#2.跑CNV结果
~/Software/breakdancer/bin/breakdancer-max test.cfg > sample_sv.xls
软件参数
BreakDancerMax (Update from 1.0 to 1.1 version only applied to cpp now.)
Usage: breakdancer_max <analysis_config_file>
Options:
-o STRING operate on a single chromosome [all chromosome] 单独跑一个染色体,默认是全部染色体
-s INT minimum length of a region [7] 最小的结构变异大小,默认是7bp
-c INT cutoff in unit of standard deviation [3] 单位区域的标准偏差cutoff值,默认是3
-m INT maximum SV size [1000000000] SV的最大值,默认为1Gbp
-q INT minimum alternative mapping quality [35] 最小的比对质量,默认值为35
-r INT minimum number of read pairs required to establish a connection [2] 双端reads都有断点的数目,默认值为2
-x INT maximum threshold of haploid sequence coverage for regions to be ignored [1000] 最大被忽略的单倍体测序深度,默认值为1000
-b INT buffer size for building connection [100] 铆定时缓冲区的大小,默认值是100
-t only detect transchromosomal rearrangement, by default off 只检测染色体重排,默认关闭
-d STRING prefix of fastq files that SV supporting reads will be saved by library SV支持reads的fastq文件的前缀由library保存
-g STRING dump SVs and supporting reads in BED format for GBrowse 以SV和支持reads用bed格式转存
-l analyze Illumina long insert (mate-pair) library 分析illumina长插入文库
-a print out copy number by bam file rather than library, by default on 用bamfile输出拷贝数而不是靠library,默认是开启的
-h print out Allele Frequency column, by default off 输出突变频率,默认关闭
-y INT output score filter [40] 得分cutoff值,默认40
结果文件
#Software: 1.4.5-unstable-66-4e44b43 (commit 4e44b43)
#Command: ~/Software/breakdancer/bin/breakdancer-max test.cfg
#Library Statistics:
#test.bam mean:217.46 std:81.76 uppercutoff:630.36 lowercutoff:0 readlen:145.6library:wuyutong reflen:3047530075 seqcov:7.17377 phycov:5.35423 1:267938 2:4994514 4:13850809 8:270324 32:861346
#Chr1 Pos1 Orientation1 Chr2 Pos2 Orientation2 Type Size Score num_Reads num_Reads_lib test.bam
chrM 1 1310+572- chrM 1015 1310+572- ITX -84 99 41 test.bam|41 NA
……
结果注释
BreakDancer输出结果包含以下几列:
- Chromosome 1 染色体1
- Position 1 位置1
- Orientation 1 断点1两个方向的reads数
- Chromosome 2 染色体2
- Position 2 位置2
- Orientation 2 断点2两个方向的reads数
- Type of a SV SV的类型
- Size of a SV的大小
- Confidence Score 置信度
- Total number of supporting read pairs 支持双端reads的数目
- Total number of supporting read pairs from each map file 每个比对文件支持双端的数目
- Estimated allele frequency 估算的突变频率
- Software version 软件版本
- The run parameters 运行参数
第1-3和4-6列是定义两个SV的断点的,+,-分别是比对到锚定区域的正向反向reads。
第7列是检测到的SV类型,DEL (deletions)缺失, INS (insertion)插入, INV (inversion)倒位, ITX (intra-chromosomal translocation)染色体内易位, CTX (inter-chromosomal translocation)染色体间易位, and Unknown.
第8列是SV的大小,他对染色体间易位是没有意义的。
第9列是本方法检测SV的置信度。
第11列
pool analysis时候用到的,区分germline和somatic等等
第12列
估计的突变频率
Column 13 and 14 are information useful to reproduce the results.
Example 1:
1 10000 10+0- 2 20000 7+10- CTX -296 99 10 tB|10 1.00 BreakDancerMax-0.0.1 t1表示:
染色体间易位,chr1:10000和chr2:20000之间,有10对来自tB库的read pair,置信度为99。
Example 2:
1 59257 5+1- 1 60164 0+5- DEL 862 99 5 nA|2:tB|1 0.56 BreakDancerMax-0.0.1 c4
A deletion between chr1:59257 and chr1:60164 connected by 5 read pairs, among which 2 in library nA and 1 in library tB support the deletion hypothesis. This deletion is detected by BreakDancerMax-0.0.1 with a separation threshold of 4 s.d.
Example 3:
1 62767 10+0- 1 63126 0+10- INS -13 36 10 NA|10 1.00 BreakDancerMini-0.0.1 q10
An 13 bp insertion detected by BreakDancerMini between chr1:62767 and chr1:63126 with 10 supporting read pairs from a single library 'NA' and a confidence score of 36.
过滤标准
这个软件普适性很高,也因为检测精度很高而被大家认可,但是产生的结果特别多,假阳性率高,所以如何过滤是个很难的问题。我暂时除了多个软件取交集还没找到别的方法。
我目前测试了17个阳性样本,breakdancer都不会漏掉阳性结果,但是也产生了其他的假阳性结果。
不过,毋庸置疑的是支持pair reads越多,越可信,但是多少,会比较难确定。等我辅助多测试几个样本,总结一下。
可视化结果
无
网友评论