我一般用MACS2做peak calling,但是不知道效果是不是最好的,去搜了一下,发现14年有一篇文章用DNase-seq的数据比较了主流的几个peak caller的效果。虽然发表在Plos one上,不过还是很有参考意义(A Comparison of Peak Callers Used for DNase-Seq Data)。这篇文章比较了如下四个软件:
image用 ENCODE中的K562, GM12878 和 HelaS3的DNase-seq的数据从以下几方面去比较这几种软件的效果:
- sensitivity 和 specificity
作者先从ENCODE中下载了K562, GM12878 和 HelaS3的几十套转录因子结合(TFBS)的narrow peaks的数据,用BEDOPS取了这些的并集作为比较这几种软件的"reference set"。以下是这四种数据的灵敏度(TPR)和特异度(1-FDR)的情况(其中ZINBA分为两种,一种是ZINBA_N,即输出为narrow peak模式,另一种是ZINBA_B,输出为broad peak):
imageZINBA_N具有最小的TPR,即可能会错失更多正确的DHS,不过它同时也有最小的FDR。但是ZINBA_B的TPR和FDR都比较低,所以ZINBA_B与reference set和其他的方法差距较大。
2. 找到的peaks数量和peaks的长度以及coverage
image image image3. 调整默认的信号阈值
image在调整了阈值之后。F-seq的效果得到了提升,但是Hotspot与MACS表现则与之前差不多。
总体来看,对于DNase-seq的数据而言。F-seq的效果来说最好,MACS和Hotsplot也相对不错。但是ZINBA对于DNase-seq的数据无论是在特异度、灵敏度还是在计算时间上都不是很适合。
网友评论