美文网首页chip-seq
让我看看谁还不会用deeptools可视化(bcpp)

让我看看谁还不会用deeptools可视化(bcpp)

作者: 想要学好生信的小白 | 来源:发表于2021-03-25 15:40 被阅读0次

    一、deeptools安装

    见我写的第一篇文章《Conda 安装软件万能链接》:Conda安装软件万能链接


    二、deeptools可视化要用到4个小命令——bamCoverage、computeMatrix、plotProfile 、plotHeatmap,我简称bcpp一整套(方便记忆,哈哈哈,为啥叫一整套就说明了这4个小命令是可以连着用的,紧密性很强。)

    deeptools官网:deeptools官网

    bamCoverage官网说明书:bamCoverage官网说明书

    或者直接在节点上直接输:deeptools bamCoverage --help 查看参数和用法,但是官网说明书还有原理更方便理解。

    computeMatrix官网说明书:computeMatrix官网说明书

    或者直接在节点上直接输:deeptools computeMatrix --help 查看参数和用法,但是官网说明书还有原理更方便理解。

    plotProfile 官网说明书:plotProfile官网说明书

    或者直接在节点上直接输:deeptools plotProfile --help 查看参数和用法,但是官网说明书还有原理更方便理解。

    plotHeatmap 官网说明书:plotHeatmap官网使用说明书

    或者直接在节点上直接输:deeptools plotheatmap --help 查看参数和用法,但是官网说明书还有原理更方便理解。

    (后面会更新每一个小命令的具体原理和参数说明)


    三、实际操作(参数可以根据自己的数据进行调整探索!世界上没有两片完全相同的叶子!!!)

    1、bamCoverage:将bam文件转化为bigwig文件,bw文件可以直接导入IGV进行可视化。

    bamCoverage -b x.bam -of bigwig -o x.bw -p 20 --ignoreDuplicates --binSize 10 --normalizeUsing RPKM

    注:

     -b:输入的bam文件 。

    -o:输出的文件 。

     --ignoreDuplicates:忽略重复,也就是说具有相同方向和起始点的reads只会识别一次不会重复识别。

    --binSize(-bs):设置输出的文件的bins大小,默认值是50。

    --normalizeUsing :可选值有RPKM、CPM、BPM、RPGC、None。默认值是None。

    2、computeMatrix:生成矩阵,有两种方式:一种是scale-regions , 另外一种是reference-point ,具体见官网说明书。

    ① scale-regions mode:

    computeMatrix scale-regions -R X.gene.bed -S x.bw --smartLabels -p 20 --binSize 10 -b 3000 -a 3000 --regionBodyLength 5000 --sortRegions keep -o x.gz --outFileSortedRegions computeMatrix_x.bed --outFileNameMatrix matrix_x.tab

    注:

    -R:后面跟gene.bed文件,该文件可以从基因注释文件(gff3格式)转化而来。

    -S:后面跟上一步产生的bw文件。

    -p:  要使用的处理器数量。默认值是1。

    --binSize: bin大小。默认值是10。

    -b:    所选参考点的上游距离。默认值是500。

    -a:     所选参考点的下游距离。默认值是1500。

    --regionBodyLength:默认值是5000。

    --sortRegions:输出文件是否应该显示排序的区域。默认情况下不对区域进行排序。如果需要输出顺序与输入区域匹配,则指定“keep”。默认值是keep。

    -o:    输出文件。

    --outFileSortedRegions:跳过0或最小/最大阈值后保存区域的文件名。文件中区域的顺序与所选的排序顺序一致。

    --outFileNameMatrix: 如果选择这个选项,则热图的基础值矩阵将使用指定的名称保存。这个矩阵可以很容易地加载到R或其他程序中。

    ② reference-point mode:

    computeMatrix reference-point --referencePoint TSS -b 3000 -a 3000 -R X.gene.bed -S x.bw --skipZeros -o matrix_x_TSS.gz --outFileSortedRegions computeMatrix_x_TSS.bed

    注:

    -R:   后面跟gene.bed文件,该文件可以从基因注释文件(gff3格式)转化而来。

    -S:   后面跟上一步产生的bw文件。

    -b:     所选参考点的上游距离。默认值是500。

    -a:     所选参考点的下游距离。默认值是1500。

    --skipZeros:分数为零的区域是否应该被包括在内。默认是包括它们。

    -o:      输出文件。

    --outFileSortedRegions: 跳过0或最小/最大阈值后保存区域的文件名。文件中区域的顺序与所选的排序顺序一致。

    --outFileNameMatrix: 如果选择这个选项,则热图的基础值矩阵将使用指定的名称保存。这个矩阵可以很容易地加载到R或其他程序中。

    如果以转录终止位点为参考位点的话就将TSS换成TES。

    3、plotProfile:矩阵文件可视化。

    plotProfile -m matrix_x.gz -out Profile_x.pdf --outFileNameData plotProfile_x.tab

    注:

    -m: 矩阵文件。

    -out:保存的文件名。文件的结尾即图像的格式。可用的选项有:" png ", " eps ", " pdf "和" svg "。

    --outFileNameData:保存平均配置文件的基础数据。

    4、plotHeatmap:创建基因组区域相关的得分热图。

    plotHeatmap -m matrix_x.gz -out x_Heatmap.png

    注:

    -m: 矩阵文件。

    -out: 保存的文件名。文件的结尾即图像的格式。可用的选项有:" png ", " eps ", " pdf "和" svg "。


    四、结果

    1、bamCoverage结果是生成一个bw文件,然后我导入IGV查看结果如下:

                 还可以将peak.bedgraph和基因注释文件gff3文件一起导入IGV进行查看

    2、plotProfile结果:

    scale-regions mode reference-point mode reference-point mode

    3、plotHeatmap结果:


    相关文章

      网友评论

        本文标题:让我看看谁还不会用deeptools可视化(bcpp)

        本文链接:https://www.haomeiwen.com/subject/twlthltx.html