美文网首页chip-seq
让我看看谁还不会用deeptools可视化(bcpp)

让我看看谁还不会用deeptools可视化(bcpp)

作者: 想要学好生信的小白 | 来源:发表于2021-03-25 15:40 被阅读0次

一、deeptools安装

见我写的第一篇文章《Conda 安装软件万能链接》:Conda安装软件万能链接


二、deeptools可视化要用到4个小命令——bamCoverage、computeMatrix、plotProfile 、plotHeatmap,我简称bcpp一整套(方便记忆,哈哈哈,为啥叫一整套就说明了这4个小命令是可以连着用的,紧密性很强。)

deeptools官网:deeptools官网

bamCoverage官网说明书:bamCoverage官网说明书

或者直接在节点上直接输:deeptools bamCoverage --help 查看参数和用法,但是官网说明书还有原理更方便理解。

computeMatrix官网说明书:computeMatrix官网说明书

或者直接在节点上直接输:deeptools computeMatrix --help 查看参数和用法,但是官网说明书还有原理更方便理解。

plotProfile 官网说明书:plotProfile官网说明书

或者直接在节点上直接输:deeptools plotProfile --help 查看参数和用法,但是官网说明书还有原理更方便理解。

plotHeatmap 官网说明书:plotHeatmap官网使用说明书

或者直接在节点上直接输:deeptools plotheatmap --help 查看参数和用法,但是官网说明书还有原理更方便理解。

(后面会更新每一个小命令的具体原理和参数说明)


三、实际操作(参数可以根据自己的数据进行调整探索!世界上没有两片完全相同的叶子!!!)

1、bamCoverage:将bam文件转化为bigwig文件,bw文件可以直接导入IGV进行可视化。

bamCoverage -b x.bam -of bigwig -o x.bw -p 20 --ignoreDuplicates --binSize 10 --normalizeUsing RPKM

注:

 -b:输入的bam文件 。

-o:输出的文件 。

 --ignoreDuplicates:忽略重复,也就是说具有相同方向和起始点的reads只会识别一次不会重复识别。

--binSize(-bs):设置输出的文件的bins大小,默认值是50。

--normalizeUsing :可选值有RPKM、CPM、BPM、RPGC、None。默认值是None。

2、computeMatrix:生成矩阵,有两种方式:一种是scale-regions , 另外一种是reference-point ,具体见官网说明书。

① scale-regions mode:

computeMatrix scale-regions -R X.gene.bed -S x.bw --smartLabels -p 20 --binSize 10 -b 3000 -a 3000 --regionBodyLength 5000 --sortRegions keep -o x.gz --outFileSortedRegions computeMatrix_x.bed --outFileNameMatrix matrix_x.tab

注:

-R:后面跟gene.bed文件,该文件可以从基因注释文件(gff3格式)转化而来。

-S:后面跟上一步产生的bw文件。

-p:  要使用的处理器数量。默认值是1。

--binSize: bin大小。默认值是10。

-b:    所选参考点的上游距离。默认值是500。

-a:     所选参考点的下游距离。默认值是1500。

--regionBodyLength:默认值是5000。

--sortRegions:输出文件是否应该显示排序的区域。默认情况下不对区域进行排序。如果需要输出顺序与输入区域匹配,则指定“keep”。默认值是keep。

-o:    输出文件。

--outFileSortedRegions:跳过0或最小/最大阈值后保存区域的文件名。文件中区域的顺序与所选的排序顺序一致。

--outFileNameMatrix: 如果选择这个选项,则热图的基础值矩阵将使用指定的名称保存。这个矩阵可以很容易地加载到R或其他程序中。

② reference-point mode:

computeMatrix reference-point --referencePoint TSS -b 3000 -a 3000 -R X.gene.bed -S x.bw --skipZeros -o matrix_x_TSS.gz --outFileSortedRegions computeMatrix_x_TSS.bed

注:

-R:   后面跟gene.bed文件,该文件可以从基因注释文件(gff3格式)转化而来。

-S:   后面跟上一步产生的bw文件。

-b:     所选参考点的上游距离。默认值是500。

-a:     所选参考点的下游距离。默认值是1500。

--skipZeros:分数为零的区域是否应该被包括在内。默认是包括它们。

-o:      输出文件。

--outFileSortedRegions: 跳过0或最小/最大阈值后保存区域的文件名。文件中区域的顺序与所选的排序顺序一致。

--outFileNameMatrix: 如果选择这个选项,则热图的基础值矩阵将使用指定的名称保存。这个矩阵可以很容易地加载到R或其他程序中。

如果以转录终止位点为参考位点的话就将TSS换成TES。

3、plotProfile:矩阵文件可视化。

plotProfile -m matrix_x.gz -out Profile_x.pdf --outFileNameData plotProfile_x.tab

注:

-m: 矩阵文件。

-out:保存的文件名。文件的结尾即图像的格式。可用的选项有:" png ", " eps ", " pdf "和" svg "。

--outFileNameData:保存平均配置文件的基础数据。

4、plotHeatmap:创建基因组区域相关的得分热图。

plotHeatmap -m matrix_x.gz -out x_Heatmap.png

注:

-m: 矩阵文件。

-out: 保存的文件名。文件的结尾即图像的格式。可用的选项有:" png ", " eps ", " pdf "和" svg "。


四、结果

1、bamCoverage结果是生成一个bw文件,然后我导入IGV查看结果如下:

             还可以将peak.bedgraph和基因注释文件gff3文件一起导入IGV进行查看

2、plotProfile结果:

scale-regions mode reference-point mode reference-point mode

3、plotHeatmap结果:


相关文章

网友评论

    本文标题:让我看看谁还不会用deeptools可视化(bcpp)

    本文链接:https://www.haomeiwen.com/subject/twlthltx.html