让我看看谁还不会用deeptools可视化(bcpp)

作者: 想要学好生信的小白 | 来源:发表于2021-03-25 15:40 被阅读0次

让我看看谁还不会用deeptools可视化(bcpp)
bam2bw
deeptools可视化
使用deeptools画热图和平均图
你若无恙，天下无病！
你若无恙，天下无病!
ATAC-seq(5) -- deeptools可视化及peak
deeptools系列01-multiBamSummary
高通量测序数据处理学习记录（四）：DeepTools学习笔记
神经网络入门(5)

一、deeptools安装

见我写的第一篇文章《Conda 安装软件万能链接》：Conda安装软件万能链接

二、deeptools可视化要用到4个小命令——bamCoverage、computeMatrix、plotProfile 、plotHeatmap，我简称bcpp一整套（方便记忆，哈哈哈，为啥叫一整套就说明了这4个小命令是可以连着用的，紧密性很强。）

deeptools官网：deeptools官网

bamCoverage官网说明书：bamCoverage官网说明书

或者直接在节点上直接输：deeptools bamCoverage --help 查看参数和用法，但是官网说明书还有原理更方便理解。

computeMatrix官网说明书：computeMatrix官网说明书

或者直接在节点上直接输：deeptools computeMatrix --help 查看参数和用法，但是官网说明书还有原理更方便理解。

plotProfile 官网说明书：plotProfile官网说明书

或者直接在节点上直接输：deeptools plotProfile --help 查看参数和用法，但是官网说明书还有原理更方便理解。

plotHeatmap 官网说明书：plotHeatmap官网使用说明书

或者直接在节点上直接输：deeptools plotheatmap --help 查看参数和用法，但是官网说明书还有原理更方便理解。

（后面会更新每一个小命令的具体原理和参数说明）

三、实际操作（参数可以根据自己的数据进行调整探索！世界上没有两片完全相同的叶子!!!）

1、bamCoverage：将bam文件转化为bigwig文件，bw文件可以直接导入IGV进行可视化。

bamCoverage -b x.bam -of bigwig -o x.bw -p 20 --ignoreDuplicates --binSize 10 --normalizeUsing RPKM

注：

-b：输入的bam文件。

-o：输出的文件。

--ignoreDuplicates：忽略重复，也就是说具有相同方向和起始点的reads只会识别一次不会重复识别。

--binSize（-bs）：设置输出的文件的bins大小，默认值是50。

--normalizeUsing :可选值有RPKM、CPM、BPM、RPGC、None。默认值是None。

2、computeMatrix：生成矩阵，有两种方式：一种是scale-regions , 另外一种是reference-point ，具体见官网说明书。

① scale-regions mode：

computeMatrix scale-regions -R X.gene.bed -S x.bw --smartLabels -p 20 --binSize 10 -b 3000 -a 3000 --regionBodyLength 5000 --sortRegions keep -o x.gz --outFileSortedRegions computeMatrix_x.bed --outFileNameMatrix matrix_x.tab

注：

-R：后面跟gene.bed文件，该文件可以从基因注释文件（gff3格式）转化而来。

-S：后面跟上一步产生的bw文件。

-p: 要使用的处理器数量。默认值是1。

--binSize： bin大小。默认值是10。

-b: 所选参考点的上游距离。默认值是500。

-a: 所选参考点的下游距离。默认值是1500。

--regionBodyLength:默认值是5000。

--sortRegions:输出文件是否应该显示排序的区域。默认情况下不对区域进行排序。如果需要输出顺序与输入区域匹配，则指定“keep”。默认值是keep。

-o: 输出文件。

--outFileSortedRegions:跳过0或最小/最大阈值后保存区域的文件名。文件中区域的顺序与所选的排序顺序一致。

--outFileNameMatrix: 如果选择这个选项，则热图的基础值矩阵将使用指定的名称保存。这个矩阵可以很容易地加载到R或其他程序中。

② reference-point mode:

computeMatrix reference-point --referencePoint TSS -b 3000 -a 3000 -R X.gene.bed -S x.bw --skipZeros -o matrix_x_TSS.gz --outFileSortedRegions computeMatrix_x_TSS.bed

注：

-R：后面跟gene.bed文件，该文件可以从基因注释文件（gff3格式）转化而来。

-S：后面跟上一步产生的bw文件。

-b: 所选参考点的上游距离。默认值是500。

-a: 所选参考点的下游距离。默认值是1500。

--skipZeros：分数为零的区域是否应该被包括在内。默认是包括它们。

-o: 输出文件。

--outFileSortedRegions: 跳过0或最小/最大阈值后保存区域的文件名。文件中区域的顺序与所选的排序顺序一致。

--outFileNameMatrix: 如果选择这个选项，则热图的基础值矩阵将使用指定的名称保存。这个矩阵可以很容易地加载到R或其他程序中。

如果以转录终止位点为参考位点的话就将TSS换成TES。

3、plotProfile：矩阵文件可视化。

plotProfile -m matrix_x.gz -out Profile_x.pdf --outFileNameData plotProfile_x.tab

注：

-m: 矩阵文件。

-out:保存的文件名。文件的结尾即图像的格式。可用的选项有:" png "， " eps "， " pdf "和" svg "。

--outFileNameData：保存平均配置文件的基础数据。

4、plotHeatmap：创建基因组区域相关的得分热图。

plotHeatmap -m matrix_x.gz -out x_Heatmap.png

注：

-m: 矩阵文件。

-out: 保存的文件名。文件的结尾即图像的格式。可用的选项有:" png "， " eps "， " pdf "和" svg "。

四、结果

1、bamCoverage结果是生成一个bw文件，然后我导入IGV查看结果如下：

还可以将peak.bedgraph和基因注释文件gff3文件一起导入IGV进行查看

2、plotProfile结果：

scale-regions mode

reference-point mode

3、plotHeatmap结果：

网友评论

chip-seq

本文标题：让我看看谁还不会用deeptools可视化(bcpp)

本文链接：https://www.haomeiwen.com/subject/twlthltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

让我看看谁还不会用deeptools可视化(bcpp)

一、deeptools安装

见我写的第一篇文章《Conda 安装软件万能链接》：Conda安装软件万能链接

二、deeptools可视化要用到4个小命令——bamCoverage、computeMatrix、plotProfile 、plotHeatmap，我简称bcpp一整套（方便记忆，哈哈哈，为啥叫一整套就说明了这4个小命令是可以连着用的，紧密性很强。）

deeptools官网：deeptools官网

bamCoverage官网说明书：bamCoverage官网说明书

或者直接在节点上直接输：deeptools bamCoverage --help 查看参数和用法，但是官网说明书还有原理更方便理解。

computeMatrix官网说明书：computeMatrix官网说明书

或者直接在节点上直接输：deeptools computeMatrix --help 查看参数和用法，但是官网说明书还有原理更方便理解。

plotProfile 官网说明书：plotProfile官网说明书

或者直接在节点上直接输：deeptools plotProfile --help 查看参数和用法，但是官网说明书还有原理更方便理解。

plotHeatmap 官网说明书：plotHeatmap官网使用说明书

或者直接在节点上直接输：deeptools plotheatmap --help 查看参数和用法，但是官网说明书还有原理更方便理解。

（后面会更新每一个小命令的具体原理和参数说明）

三、实际操作（参数可以根据自己的数据进行调整探索！世界上没有两片完全相同的叶子!!!）

1、bamCoverage：将bam文件转化为bigwig文件，bw文件可以直接导入IGV进行可视化。

bamCoverage -b x.bam -of bigwig -o x.bw -p 20 --ignoreDuplicates --binSize 10 --normalizeUsing RPKM

注：

-b：输入的bam文件 。

-o：输出的文件 。

--ignoreDuplicates：忽略重复，也就是说具有相同方向和起始点的reads只会识别一次不会重复识别。

--binSize（-bs）：设置输出的文件的bins大小，默认值是50。

--normalizeUsing :可选值有RPKM、CPM、BPM、RPGC、None。默认值是None。

2、computeMatrix：生成矩阵，有两种方式：一种是scale-regions , 另外一种是reference-point ，具体见官网说明书。

① scale-regions mode：

computeMatrix scale-regions -R X.gene.bed -S x.bw --smartLabels -p 20 --binSize 10 -b 3000 -a 3000 --regionBodyLength 5000 --sortRegions keep -o x.gz --outFileSortedRegions computeMatrix_x.bed --outFileNameMatrix matrix_x.tab

注：

-R：后面跟gene.bed文件，该文件可以从基因注释文件（gff3格式）转化而来。

-S：后面跟上一步产生的bw文件。

-p: 要使用的处理器数量。默认值是1。

--binSize： bin大小。默认值是10。

-b: 所选参考点的上游距离。默认值是500。

-a: 所选参考点的下游距离。默认值是1500。

--regionBodyLength:默认值是5000。

--sortRegions:输出文件是否应该显示排序的区域。默认情况下不对区域进行排序。如果需要输出顺序与输入区域匹配，则指定“keep”。默认值是keep。

-o: 输出文件。

--outFileSortedRegions:跳过0或最小/最大阈值后保存区域的文件名。文件中区域的顺序与所选的排序顺序一致。

--outFileNameMatrix: 如果选择这个选项，则热图的基础值矩阵将使用指定的名称保存。这个矩阵可以很容易地加载到R或其他程序中。

② reference-point mode:

computeMatrix reference-point --referencePoint TSS -b 3000 -a 3000 -R X.gene.bed -S x.bw --skipZeros -o matrix_x_TSS.gz --outFileSortedRegions computeMatrix_x_TSS.bed

注：

-R： 后面跟gene.bed文件，该文件可以从基因注释文件（gff3格式）转化而来。

-S： 后面跟上一步产生的bw文件。

-b: 所选参考点的上游距离。默认值是500。

-a: 所选参考点的下游距离。默认值是1500。

--skipZeros：分数为零的区域是否应该被包括在内。默认是包括它们。

-o: 输出文件。

--outFileSortedRegions: 跳过0或最小/最大阈值后保存区域的文件名。文件中区域的顺序与所选的排序顺序一致。

--outFileNameMatrix: 如果选择这个选项，则热图的基础值矩阵将使用指定的名称保存。这个矩阵可以很容易地加载到R或其他程序中。

如果以转录终止位点为参考位点的话就将TSS换成TES。

3、plotProfile：矩阵文件可视化。

plotProfile -m matrix_x.gz -out Profile_x.pdf --outFileNameData plotProfile_x.tab

注：

-m: 矩阵文件。

-out:保存的文件名。文件的结尾即图像的格式。可用的选项有:" png "， " eps "， " pdf "和" svg "。

--outFileNameData：保存平均配置文件的基础数据。

4、plotHeatmap：创建基因组区域相关的得分热图。

plotHeatmap -m matrix_x.gz -out x_Heatmap.png

注：

-m: 矩阵文件。

-out: 保存的文件名。文件的结尾即图像的格式。可用的选项有:" png "， " eps "， " pdf "和" svg "。

四、结果

1、bamCoverage结果是生成一个bw文件，然后我导入IGV查看结果如下：

还可以将peak.bedgraph和基因注释文件gff3文件一起导入IGV进行查看

2、plotProfile结果：

3、plotHeatmap结果：

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

-b：输入的bam文件。

-o：输出的文件。

-R：后面跟gene.bed文件，该文件可以从基因注释文件（gff3格式）转化而来。

-S：后面跟上一步产生的bw文件。