1. 利用macs2 callpeak进行 calling peaks,其中有个参数--keep-dup,这是如果输入为过滤掉重复reads的bam文件,这--keep-dup all。如果为未过滤重复reads的bam文件,--keep-dup 1。此参数是指定输入爸妈文件中重复reads有无的。
macs2 callpeak 的基本命令
-t
IP.bam
-c
input.bam
-g
genome.size
-B
输出bgd文件,下游bigwig文件生成所需
-f
双端测序使用BAMPE,单端的话不需要加参数(或 -f BAM),默认是auto识别。除”BAMPE”, “BEDPE”需要特别声明外,其他格式都可以用 AUTO自动检测。
标签文件的格式,可以是“ELAND”,“BED”,“ELANDMULTI”,“ELANDEXPORT”,“ELANDMULTIPET”(用于对端标签),“SAM”,“BAM”,“BOWTIE”,“BAMPE”或“BEDPE”。默认为“AUTO”,这将允许MACS自动决定格式。当您使用“AUTO”时也会使用
结合不同格式的文件。请注意,MACS无法检测到“BAMPE”或“BEDPE”格式带有“AUTO”,你必须隐含指定“BAMPE”和“BEDPE”的格式。
格式指定'BAMPE'或'BEDPE'时将触发特殊模式。这样,MACS2将处理BAM或BED文件作为配对结束数据。而不是建立双峰分布正负链读数预测片段大小,MACS2会使用读取对的实际插入大小来构建片段积累。(所以,当你的数据是双端测序数据时,你应该用BAMPE或者BEDPE参数。当你设置成双端参数的时候,MACS2就会跳过建模计算d的那一步,而是直接用片段的insert size来建立堆积。)
BAMPE格式只是包含配对末端对齐的BAM格式信息,例如来自BWA或BOWTIE的信息。
BEDPE格式是一种简化且更灵活的BED格式只包含定义染色体名称的前三列,来自Paired-end的片段的左右位置测序。请注意,这与BEDTOOLS使用的格式不同,BEDTO的BEDTOOLS版本实际上不在标准BED中格式。
-q
设置FDR阈值
-p
设置pvalue阈值
--nomodel
这个参数和extsize、shift是配套使用的,有这个参数才可以设置extsize和shift。
--extsize
当设置了nomodel时,MACS会用--extsize这个参数从5'->3'方向扩展reads修复fragments。比如说你的转录因子结合范围200bp,就设置这个参数是200。
--shift
当设置了--nomodel,MACS用这个参数从5' 端移动剪切,然后用--extsize延伸,如果--shift是负值表示从3'端方向移动。建议ChIP-seq数据集这个值保持默认值为0,对于检测富集剪切位点如DNAsel数据集设置为EXTSIZE的一半。
--SPMR
需要-B被设置,不影响FDR和pvalue
--outdir
输出文件的路径
--broad
peak有narrow peak和broad peak, 设置时可以call broad peak 的结果文件。
--broad-cutoff
和pvalue、以及qvalue相似
其实,这里面讨论最多的是--nomodel --shift -100 --extsize 200这些参数如何选择,下面的图很形象的展示了参数的作用。当然,我也是查阅了很多资料与文献,
一般默认在ATAC-seq,DNase-seq,FAIRE-seq的时候将shift设置为extsize的一半,且参数固定为:--nomodel --shift -100 --extsize 200 (猪项目中为shift -75 --extsize 150)。
而在MNase-seq的时候,参数固定为:--nomodel --shift 37 --extsize 73。
在ChiP-seq的时候不用移峰,所以只使用-nomodel,当做组蛋白修饰的时候,由于peak并不典型,所以使用–nomodel –shift 73参数。
对人细胞系ATAC-seq 数据call peak的参数设置如下:
macs2 callpeak -t sample.final.bam -n sample --nomodel --shift -100 --extsize 200 -B --SPMR -g hs --outdir Macs2_out 2 --keep-dup all --call-summits > sample.macs2.log (单端read时,bam已经去过重复则--keep-dup all,不去的话--keep-dup设置为1)
macs2 callpeak -t sample.final.bam -n sample -f BAMPE -B --SPMR -g hs --outdir Macs2_out 2 --keep-dup all --call-summits > sample.macs2.log(双端reads)
思考:-f 设置为BAMPE时,好像与--shift -100 --extsize 200 --nomode冲突,因为加不加这三个参数,结果是一样的。看-f里面,BAMPE的解释好像也是这个意思。
所以对于双末端数据可以只设置-f BAM与--nomode --shift -100 --extsize 200 参数二选一???
参考1:组蛋白ChIP分析要注意的2个要点(基迪奥):https://www.genedenovo.com/news/333.html
参考2: https://www.jianshu.com/p/e83a7e10ea2e?tdsourcetag=s_pcqq_aiomsg
参考3: https://www.jianshu.com/p/9aa719faa4b5
网友评论