美文网首页Chip seqCHIP-Seq处理流程CHIP分析
CHIP-Seq(6):查看两次重复中的peak情况

CHIP-Seq(6):查看两次重复中的peak情况

作者: Z_bioinfo | 来源:发表于2022-04-12 10:36 被阅读0次

    1.去除.narrowPeak文件首行

    sed -i '1d' WT_rep1_peaks.narrowPeak 
    sed -i '1d' WT_rep2_peaks.narrowPeak 
    

    2.使用bedtools粗略估计两次重复的peak交集,重叠1bp就算有交集

    bedtools intersect -a WT_rep1_peaks.narrowPeak -b WT_rep2_peaks.narrowPeak -wo > overlaps.bed
    

    3.粗略估计后可以画韦恩图进行可视化

    intervene venn -i *.narrowPeak --output venn --save-overlaps
    
    image.png

    4.对MACS3的结果文件narrowPeak根据-log10(p-value)进行排序

    sort -k8,8nr WT_rep1_peaks.narrowPeak >WT_rep1_peaks.narrowPeak
    sort -k8,8nr WT_rep2_peaks.narrowPeak >WT_rep2_peaks.narrowPeak
    

    5.对生物学重复样本间的peak进行鉴定,查看两次重复的peak的IDR(不可重复率)

    此次实验是具有生物学重复样本,处理前需要对重复样本的共有peak进行鉴定,用IDR的方法获得高重复性的peaks

    idr --samples WT_rep1_peaks.narrowPeak WT_rep2_peaks.narrowPeak  --output-file idr_peak.narrowPeak --rank p.value --plot  --idr-threshold 0.05 --log-output-file sample.idr.log
    #如果想看IDR<0.05的,可以通过第5列信息过滤:
    awk '{if($5 >= 540) print $0}' idr_peak.narrowPeak | wc -l 
    

    输出文件解读:
    输出文件包括:

    idr_peak.narrowPeak
    sample-idr.log
    sample-idr.png
    (1)idr_peak.narrowPeak
    idr_peak.narrowPeak是common peaks的结果输出文件,格式与输入文件格式类似,只是多了几列信息。前10列是标准的narrowPeak格式文件,包含重复样本整合后的peaks信息。
    第5列:包含缩放的 IDR 值
    score int
    如min(int(log2(-125IDR), 1000),那么IDR=0,缩放的IDR就是1000;IDR=0.05, int(-125log2(0.05)) = 540;IDR=1.0, int(-125log2(1.0) = 0。
    <meta charset="utf-8">

    • 11列和第12列:分别是local和global IDR值
      • col11: localIDR float -log10(Local IDR value)
      • col12: globalIDR float -log10(Global IDR value)
        global IDR值是第5列中用于计算缩放的IDR值,类似于对p值进行多个假设校正以计算FDR;local IDR类似于属于不可重复噪声部分的峰值的后验概率。
    • 第13、14、15、16列:是重复样本1相关的信息。
      • col13: rep1_chromStart int
      • col14: rep1_chromEnd int
      • col15: rep1_signalValue float
      • col16: rep1_summit int
    • 第17-20列:是重复样本2相关的信息,和13-16四列信息类似。

    其他列信息如下:

    • col1: chrom string
    • col2: chromStart int
    • col3: chromEnd int
    • col4: name string
    • col6: strand [+-.] Use '.' if no strand is assigned.
    • col7: signalValue float
    • col8: p-value float
    • col9: q-value float
    • col10: summit int

    wc -l *-idr 计算下common peaks的个数,接着可再计算下与总peaks的比率。

    2)sample-idr.log
    log文件会给出peaks通过IDR < 0.05的比率

    cat sample.idr.log 
    Initial parameter values: [0.10 1.00 0.20 0.50]
    Final parameter values: [1.22 1.01 0.89 0.29]
    Number of reported peaks - 37/299 (12.4%)
    
    Number of peaks passing IDR cutoff of 0.05 - 37/299 (12.4%)
    

    (3)sample-idr.png
    png文件包括4个图
    左上: Rep1 peak ranks vs Rep2 peak ranks, 没有通过特定IDR阈值的peaks显示为红色。
    右上:Rep1 log10 peak scores vs Rep2 log10 peak scores,没有通过特定IDR阈值的peaks显示为红色。
    下面两个图: Peak rank vs IDR scores,箱线图展示了IDR值的分布,默认情况下,IDR值的阈值为-1E-6。


    image.png

    相关文章

      网友评论

        本文标题:CHIP-Seq(6):查看两次重复中的peak情况

        本文链接:https://www.haomeiwen.com/subject/uowfjrtx.html