常见组蛋白修饰的ChIP-seq
数据,使用macs2
分析时会面临一个问题,peak
的峰形到底是narrowPeak
还是broadPeak
?基于现有的经验,目前一些常见组蛋白的峰形已经有比较统一的认知,具体可以见[常见组蛋白修饰要点汇总]。咱们可以根据现有的背景知识选择相应的模式,让数据分析更接近组蛋白本身最真实的情况。
虽然现有的知识已经覆盖常见的组蛋白,但心里一直有一个疑问,使用macs2
分析时,narrowPeak
和broadPeak
到底区别在哪里?为了弄清楚这其中的区别,今天咱们就来纸上谈个兵实践一下。毕竟,理论来源于实践,才可以指导实践。
下面用H3K4me3
组蛋白的数据来探索一下,为了方便只选取了一个染色体的数据。macs2
两种模式区别在于是否有--broad
参数,其他参数保持一致。下面内容里IP
、Input
、peaks
分别为信号和位置,broad
、narrow
分别为两种模式。
peak
首先,从peak
的整体情况来看看区别。下图是两种模式下,peak
的重叠情况,可以很明显地看出,两则结果基本吻合,无论是数量还是位置基本都是一致的。
signal
既然,整体上两种模式吻合度很高,下面再来看看具体的peak
信号分布如何,见下图。从图中可以看出,两者的信号分布完全一致,差别在于peak
的位置,broadPeak
模式相对于narrowPeak
来说,所做的事情就是将邻近的peak
位置合并为一个整体。
那么,对于距离较远的peak
来说情况是怎么样的呢?见下图,可知两种模式下peak
的信号和位置完全一致。到这里,咱们可以知道软件的不同模式对信号没有任何影响,最终影响的是peak
最终位置的宽窄。
ratio
接着,咱们再来看看,在broadPeak
模式下的peak
对应一个或多个narrowPeak
模式下的peak
,分别所占的比例,见下图。从上图可知,有80%的peak
,在broadPeak
和narrowPeak
模式下是一一对应的,有少部分的peak
在broadPeak
模式下被缝合。这也比较符合实际情况,因为H3K4me3
的peak
本身就是窄峰形。
从以上的结果对比可以看出,不同模式最终影响的是peak
的位置,并不会改变信号。从这一点,咱们好像可以得出,模式对后续分析的影响很小。比如说第一张图,broadPeak
模式下一个peak
,对应于narrowPeak
模式下的5个peak
,如果处理组和对照组需要比较差异peak
,用这两种模式应该可以得出相似的结果。毕竟,实验处理应该不会导致peak1-peak5
出现不一致的反应,因为这5个peak
基因组位置非常临近,即使它们是独立的,功能上应该也是一致的。当然,为了接近数据最真实的样子,还是应该根据背景知识首选最佳的参数设置。也许,narrowPeak
和broadPeak
哪一种更适合只有数据知道。
网友评论