美文网首页生信技术原理
MACS2 call peaks的统计学原理

MACS2 call peaks的统计学原理

作者: 小潤澤 | 来源:发表于2021-01-28 12:15 被阅读0次

    前言

    作为表观基因组的工具,MACS2是call peaks强而有力的工具,那么MACS call peak的基本统计学原理是上面呢?大至可以分为3步:1.设置滑动窗口;2.统计peaks在基因组上随机分布的情况;3.统计学检验

    MACS2的输出文件

    1.NAME_peaks.xls

    包含peak信息:

    1.染色体号
    2.peak起始位点
    3.peak结束位点
    4.peak区域长度
    5.peak的峰值位点(summit position)
    6.peak 峰值的高度(pileup height at peak summit, -log10(pvalue) for the peak summit)
    8.peak的富集倍数(fold change,相对于random Poisson distribution with local lambda)

    2.NAME_peaks.narrowPeak

    narrowPeak文件:

    1:染色体号
    2:peak起始位点
    3:结束位点
    4:peak name
    5:int(-10*log10qvalue)
    6 :正负链
    7:peak的富集倍数(fold change)
    8:-log10pvalue
    9:-log10qvalue

    由MACS2的输出文件来看,处理peaks的基本信息以外,如何计算peak的富集倍数(或者说是在某一个区域上富集多少条reads才算作为一个peak)以及如何计算显著性p_val就变成了一个热点问题

    设置滑动窗口

    首先,MACS2会设置一个滑动窗口(通常为1000bp),并以滑动窗口为单位来统计该区段上的reads富集成的peaks
    我们知道TF或者蛋白结合到的位置是随机的,即peaks在基因组上出现的位置是随机的(peaks即为TF或者蛋白结合的位置)。
    并且在一般情况下(这里的一般情况指的是reads随机分布在基因组上),当TF或者某种蛋白特异性结合在某个位点上时(高频结合位点),相比于一般情况(即reads随机分布在基因组上的情况下),在这些位点TF或者蛋白结合的区域会有大量的reads富集,这些区域reads的富集程度远高于reads随机分布在基因组上(一般情况)的,因此若满足这个条件,我们就定义该区域是富集出peak的

    统计peaks在基因组上随机分布的情况

    比对完成以后,每一条read结合到一个滑动窗口上可以看作是一个事件,统计结果可以分为某read结合到了该滑动窗口上和没有结合到该滑动窗口上这两种结果,因此可以看作是伯努利实验,服从二项分布


    并且我们可以近似假设,设总基因组长度为SlA为某滑窗A的长度,那么,任意的reads比对到该滑窗A的概率为:lA / S

    由于reads和滑窗有很多,试验次数很多,并且每一个read结合到滑动窗口上的概率很小,所以二项分布就会趋近于泊松分布

    统计学检验

    接下来定义一般情况下(reads随机分布在基因组上)的泊松分布:
    MACS2将所用Chip-seq数据的reads随机分布在基因组上,并统计每一个滑动窗口上的reads数,并发现每一个滑动窗口上富集到reads个数的频率分布是满足泊松分布的:


    这幅图表示的是频率分布图,横坐标表示每一个滑窗上mapping到的reads数,纵坐标表示出现k的滑窗频率(频数)
    其中k为每一个滑窗上mapping到的reads数,而p(x = k)代表出现 k 个reads数的滑窗频率(概率),比方说,mapping到5个reads的滑窗个数最多,频率为p(x = 5)。由此图可以看出,reads随机分布在基因组上,其中每个滑窗上分摊到的reads并不是很多,其中每个滑窗上分的5条reads的情况是最多的

    那么对于任意位置的滑窗A来说,我们定义一般情况(reads随机分布在基因组上)的泊松分布的λ为:

    其中:
    1.lA为滑窗A的长度
    2.S为总基因组的长度
    3.n为总测序的reads数

    那么,不同的λ值对应的泊松分布如下图所示:

    泊松分布
    其中k为滑窗A上比对到的reads个数,那么p(x=k)代表该滑窗上出现(比对上)k个reads的频率
    比方说,当λ=10时,A滑窗上出现10个reads的频率最高,出现0和15个(或更高)reads的频率最低;那么假设我们某一组sample在该滑窗A上检测到了100个reads,这已经大大超出了reads随机分布在基因组上所产生的泊松分布(一般情况下)的正常范围(因为出现100个reads的可能性几乎为零),所以可以判断该组sample在该滑窗A上有peak富集,并且利用泊松分布计算去p_val(即计算在分布中,k = 100在极端情况下的面积)

    相关文章

      网友评论

        本文标题:MACS2 call peaks的统计学原理

        本文链接:https://www.haomeiwen.com/subject/xqrttltx.html