一、deeptools安装
见我写的第一篇文章《Conda 安装软件万能链接》:Conda安装软件万能链接
二、deeptools可视化要用到4个小命令——bamCoverage、computeMatrix、plotProfile 、plotHeatmap,我简称bcpp一整套(方便记忆,哈哈哈,为啥叫一整套就说明了这4个小命令是可以连着用的,紧密性很强。)
deeptools官网:deeptools官网
bamCoverage官网说明书:bamCoverage官网说明书
或者直接在节点上直接输:deeptools bamCoverage --help 查看参数和用法,但是官网说明书还有原理更方便理解。
computeMatrix官网说明书:computeMatrix官网说明书
或者直接在节点上直接输:deeptools computeMatrix --help 查看参数和用法,但是官网说明书还有原理更方便理解。
plotProfile 官网说明书:plotProfile官网说明书
或者直接在节点上直接输:deeptools plotProfile --help 查看参数和用法,但是官网说明书还有原理更方便理解。
plotHeatmap 官网说明书:plotHeatmap官网使用说明书
或者直接在节点上直接输:deeptools plotheatmap --help 查看参数和用法,但是官网说明书还有原理更方便理解。
(后面会更新每一个小命令的具体原理和参数说明)
三、实际操作(参数可以根据自己的数据进行调整探索!世界上没有两片完全相同的叶子!!!)
1、bamCoverage:将bam文件转化为bigwig文件,bw文件可以直接导入IGV进行可视化。
bamCoverage -b x.bam -of bigwig -o x.bw -p 20 --ignoreDuplicates --binSize 10 --normalizeUsing RPKM
注:
-b:输入的bam文件 。
-o:输出的文件 。
--ignoreDuplicates:忽略重复,也就是说具有相同方向和起始点的reads只会识别一次不会重复识别。
--binSize(-bs):设置输出的文件的bins大小,默认值是50。
--normalizeUsing :可选值有RPKM、CPM、BPM、RPGC、None。默认值是None。
2、computeMatrix:生成矩阵,有两种方式:一种是scale-regions , 另外一种是reference-point ,具体见官网说明书。
① scale-regions mode:
computeMatrix scale-regions -R X.gene.bed -S x.bw --smartLabels -p 20 --binSize 10 -b 3000 -a 3000 --regionBodyLength 5000 --sortRegions keep -o x.gz --outFileSortedRegions computeMatrix_x.bed --outFileNameMatrix matrix_x.tab
注:
-R:后面跟gene.bed文件,该文件可以从基因注释文件(gff3格式)转化而来。
-S:后面跟上一步产生的bw文件。
-p: 要使用的处理器数量。默认值是1。
--binSize: bin大小。默认值是10。
-b: 所选参考点的上游距离。默认值是500。
-a: 所选参考点的下游距离。默认值是1500。
--regionBodyLength:默认值是5000。
--sortRegions:输出文件是否应该显示排序的区域。默认情况下不对区域进行排序。如果需要输出顺序与输入区域匹配,则指定“keep”。默认值是keep。
-o: 输出文件。
--outFileSortedRegions:跳过0或最小/最大阈值后保存区域的文件名。文件中区域的顺序与所选的排序顺序一致。
--outFileNameMatrix: 如果选择这个选项,则热图的基础值矩阵将使用指定的名称保存。这个矩阵可以很容易地加载到R或其他程序中。
② reference-point mode:
computeMatrix reference-point --referencePoint TSS -b 3000 -a 3000 -R X.gene.bed -S x.bw --skipZeros -o matrix_x_TSS.gz --outFileSortedRegions computeMatrix_x_TSS.bed
注:
-R: 后面跟gene.bed文件,该文件可以从基因注释文件(gff3格式)转化而来。
-S: 后面跟上一步产生的bw文件。
-b: 所选参考点的上游距离。默认值是500。
-a: 所选参考点的下游距离。默认值是1500。
--skipZeros:分数为零的区域是否应该被包括在内。默认是包括它们。
-o: 输出文件。
--outFileSortedRegions: 跳过0或最小/最大阈值后保存区域的文件名。文件中区域的顺序与所选的排序顺序一致。
--outFileNameMatrix: 如果选择这个选项,则热图的基础值矩阵将使用指定的名称保存。这个矩阵可以很容易地加载到R或其他程序中。
如果以转录终止位点为参考位点的话就将TSS换成TES。
3、plotProfile:矩阵文件可视化。
plotProfile -m matrix_x.gz -out Profile_x.pdf --outFileNameData plotProfile_x.tab
注:
-m: 矩阵文件。
-out:保存的文件名。文件的结尾即图像的格式。可用的选项有:" png ", " eps ", " pdf "和" svg "。
--outFileNameData:保存平均配置文件的基础数据。
4、plotHeatmap:创建基因组区域相关的得分热图。
plotHeatmap -m matrix_x.gz -out x_Heatmap.png
注:
-m: 矩阵文件。
-out: 保存的文件名。文件的结尾即图像的格式。可用的选项有:" png ", " eps ", " pdf "和" svg "。
四、结果
1、bamCoverage结果是生成一个bw文件,然后我导入IGV查看结果如下:

还可以将peak.bedgraph和基因注释文件gff3文件一起导入IGV进行查看
2、plotProfile结果:



3、plotHeatmap结果:

网友评论