美文网首页chip_seq数据分析
chip_seq质量评估之cross correlation

chip_seq质量评估之cross correlation

作者: 生信修炼手册 | 来源:发表于2019-07-10 10:55 被阅读4次

    欢迎关注”生信修炼手册”!

    chip_seq数据的质控是非常重要的,本文介绍数据质控的一个重要指标之一corss correlation。这个概念首发于以下文献

    Design and analysis of ChIP-seq experiments for DNA-binding proteins

    发表在nature biotechnology上,网址如下

    https://www.nature.com/articles/nbt.1508

    在该文章中对chip_seqs数据分析的完整pipeline进行了探究和解释,其中提出了一个peak位点两侧reads分布的规律,如下所示

    图中所示的是一个NRSF转录因子结合位点两侧的reads分布,将reads分成了比对到正链和负链两部分。从黑色的密度分布曲线可以看到,二者符合同一个高斯分布。灰色竖线代表的是结合位点的中心,而reads密度分布的中心点距离peak的中心点有一定偏移。

    从这张图可以发现两个规律,第一点peak位点附近的正负链上reads分布相同,第二点reads分布的中心点和peak的中心点存在偏移。为了量化这两个规律,科学家们提出了strand cross-correlation这个概念,考虑到reads分布相同而各自的中心点又存在一定距离,那么将reads的位置移动一定距离之后,正负链的中心重合,此时二者对称分布,可以参见下图

    为了有效衡量偏移过程,用泊松相关系数来分析正负链测序深度的相关性,当正负链的中心点重合时,相关系数最高。通过这种逐步偏移的方式,可以得到偏移距离和相关系数之间的对应关系。

    对于所有的peak都进行上述操作,然后将所有peak的结果汇总,就可以得到cross-correlation profiles, 详细的定义参见文献,如下所示

    将偏移距离和对应的cross-correlation绘制曲线,可以得到如下所示的结果

    在该图中会是出现两个峰值,第一个峰值对应的peak称之为phantom peak, 偏移距离对应测序读长,第二个峰对应chip  peak,代表真实的结合位点,偏移距离对应插入片段长度。

    通过这种cross-correlation plot的分布,可以直观的分析数据质量,示意如下

    一个高质量的chip数据,chip peak对应的峰最高,phantom peak对应的峰较矮,如上图successful所示。如果两种峰都能够观测到,而phantom peak最高,则说明抗体还是富集到了部分序列,但是背景噪声太高了,不利于后续分析,对应marginal这种情况,如果观测不到chip peak峰,则说明chip实验是失败的。

    为了更加精准的进行判断,在此基础上提出了两个量化指标NSCRSC,公式详见上图。chip peak越多,phantom peak越少,则NSC和RSC的值越高,数据质量越好。

    在encode的数据集中,好的chip实验对应的这两个指标数值范围在5到12之间,但是他们也发现确实有些chip实验没问题,但是这两个指标的值很低,同时这两个指标和FRip socre之间有一定的相关性,所以实际分析中,这两个指标也可以看做一个chip质量的软标准,在encode的标准中认为NSC<1.05,RSC<0.8的实验是失败的,我们可以参考这个标准来进行判断。

    ·end·

    —如果喜欢,快分享给你的朋友们吧—

    扫描关注微信号,更多精彩内容等着你!

    相关文章

      网友评论

        本文标题:chip_seq质量评估之cross correlation

        本文链接:https://www.haomeiwen.com/subject/prpckctx.html