美文网首页
2022-09-13 calling peaks问题

2022-09-13 calling peaks问题

作者: AsuraPrince | 来源:发表于2022-09-13 15:36 被阅读0次

1. 利用macs2 callpeak进行 calling peaks,其中有个参数--keep-dup,这是如果输入为过滤掉重复reads的bam文件,这--keep-dup all。如果为未过滤重复reads的bam文件,--keep-dup 1。此参数是指定输入爸妈文件中重复reads有无的。

macs2 callpeak 的基本命令

-t

IP.bam

-c

input.bam

-g

genome.size

-B

输出bgd文件,下游bigwig文件生成所需

-f

双端测序使用BAMPE,单端的话不需要加参数(或 -f BAM),默认是auto识别。除”BAMPE”, “BEDPE”需要特别声明外,其他格式都可以用 AUTO自动检测。

标签文件的格式,可以是“ELAND”,“BED”,“ELANDMULTI”,“ELANDEXPORT”,“ELANDMULTIPET”(用于对端标签),“SAM”,“BAM”,“BOWTIE”,“BAMPE”或“BEDPE”。默认为“AUTO”,这将允许MACS自动决定格式。当您使用“AUTO”时也会使用

结合不同格式的文件。请注意,MACS无法检测到“BAMPE”或“BEDPE”格式带有“AUTO”,你必须隐含指定“BAMPE”和“BEDPE”的格式。

格式指定'BAMPE'或'BEDPE'时将触发特殊模式。这样,MACS2将处理BAM或BED文件作为配对结束数据。而不是建立双峰分布正负链读数预测片段大小,MACS2会使用读取对的实际插入大小来构建片段积累。(所以,当你的数据是双端测序数据时,你应该用BAMPE或者BEDPE参数。当你设置成双端参数的时候,MACS2就会跳过建模计算d的那一步,而是直接用片段的insert size来建立堆积。)

BAMPE格式只是包含配对末端对齐的BAM格式信息,例如来自BWA或BOWTIE的信息。

BEDPE格式是一种简化且更灵活的BED格式只包含定义染色体名称的前三列,来自Paired-end的片段的左右位置测序。请注意,这与BEDTOOLS使用的格式不同,BEDTO的BEDTOOLS版本实际上不在标准BED中格式。

-q

设置FDR阈值

-p

设置pvalue阈值

--nomodel

这个参数和extsize、shift是配套使用的,有这个参数才可以设置extsize和shift。

--extsize

当设置了nomodel时,MACS会用--extsize这个参数从5'->3'方向扩展reads修复fragments。比如说你的转录因子结合范围200bp,就设置这个参数是200。

--shift

当设置了--nomodel,MACS用这个参数从5' 端移动剪切,然后用--extsize延伸,如果--shift是负值表示从3'端方向移动。建议ChIP-seq数据集这个值保持默认值为0,对于检测富集剪切位点如DNAsel数据集设置为EXTSIZE的一半。

--SPMR

需要-B被设置,不影响FDR和pvalue

--outdir

输出文件的路径

--broad

peak有narrow peak和broad peak, 设置时可以call broad peak 的结果文件。

--broad-cutoff

和pvalue、以及qvalue相似

其实,这里面讨论最多的是--nomodel --shift -100 --extsize 200这些参数如何选择,下面的图很形象的展示了参数的作用。当然,我也是查阅了很多资料与文献,

一般默认在ATAC-seq,DNase-seq,FAIRE-seq的时候将shift设置为extsize的一半,且参数固定为:--nomodel --shift -100 --extsize 200 (猪项目中为shift -75 --extsize 150)。

而在MNase-seq的时候,参数固定为:--nomodel --shift 37 --extsize 73

在ChiP-seq的时候不用移峰,所以只使用-nomodel,当做组蛋白修饰的时候,由于peak并不典型,所以使用–nomodel –shift 73参数。

对人细胞系ATAC-seq 数据call peak的参数设置如下:

macs2 callpeak -t sample.final.bam -n sample --nomodel --shift -100 --extsize 200 -B --SPMR -g hs --outdir Macs2_out 2 --keep-dup all --call-summits > sample.macs2.log (单端read时,bam已经去过重复则--keep-dup all,不去的话--keep-dup设置为1)

macs2 callpeak -t sample.final.bam -n sample -f BAMPE -B --SPMR -g hs --outdir Macs2_out 2 --keep-dup all --call-summits > sample.macs2.log(双端reads)

思考:-f 设置为BAMPE时,好像与--shift -100 --extsize 200 --nomode冲突,因为加不加这三个参数,结果是一样的。看-f里面,BAMPE的解释好像也是这个意思。

所以对于双末端数据可以只设置-f BAM与--nomode --shift -100 --extsize 200 参数二选一???

参考1:组蛋白ChIP分析要注意的2个要点(基迪奥):https://www.genedenovo.com/news/333.html

参考2: https://www.jianshu.com/p/e83a7e10ea2e?tdsourcetag=s_pcqq_aiomsg

参考3: https://www.jianshu.com/p/9aa719faa4b5

相关文章

网友评论

      本文标题:2022-09-13 calling peaks问题

      本文链接:https://www.haomeiwen.com/subject/pwlhortx.html