美文网首页生信小白的deeptools笔记本
deeptools系列01-multiBamSummary

deeptools系列01-multiBamSummary

作者: 想要学好生信的小白 | 来源:发表于2021-05-07 14:39 被阅读0次

    一、deeptools multiBamSummary详细介绍

    官网说明书——deeptools multiBamSummary

    功能:计算两个以上(含两个)BAM文件的基因组区域的覆盖度。

    两种模式:

            bin模式是对全基因组进行计算,针对大小相等的bins(默认值:10kb),这种模式用于评估BAM文件的全基因组相似性;

            BED-file模式是对指定区域进行计算。

    标准输出文件:

            以.npz为后缀的文件,该文件不仅可以直接用于deeptools中的“plotCorrelation”计算并可视化覆盖度之间的相关性,而且也能用于deeptools中的“plotPCA”进行主成分分析。


    二、deeptools multiBamSummary用法及参数

    (1)bins mode

    multiBamSummary bins --bamfiles file1.bam file2.bam -o results.npz

    --bamfiles(-b):bam文件

    --outFileName(-out / -o ):  输出文件名。

    参数:

    --labels(-l ) : 非默认的标签,用户自定义文件名标签。标签之间用空格隔开。

    --smartLabels: 不用手动给输入的bam文件加标签,deeptools 会移除路径和扩展名后使用文件名。

    --genomeChunkSize : 手动指定基因组大小。默认值为不指定,由bam文件的read 密度决定。

    --binSize (-bs): 用于样品的基因组窗口大小。默认值是10kb。

    --distanceBetweenBins (-n ): 默认情况下,multiBamSummary认为窗口是连续的。但是,为了节省计算时间,可以指定比窗口数更大的间隔长度,服务器会识别更少的bins.默认值是0。

    --version: 显示程序版本号并退出。

    --region(-r): 用于限制运行的基因组区域。当测试参数时,利用--region这个参数可以大大减少运行时间。格式是:chr:start:end。如 -region chr10 或者 -region chr10:456700:891000。

    --blackListFileName(-bl):bed或gtf格式文件能够包括不用于分析的区域。通过排除基因组区块,能够产生重叠区域。对于Bam文件而言,如果一条read有部分黑名单区域或者片段间隔,那么这个read或者fragment也仍会被考虑在内。如果有相关情况,注意你应该调整有效的基因组大小。

    --numberOfProcessor(-p): 使用处理器的数量。默认值是1。

    --verbose(-v): 设置查看运行消息。

    --outRawCounts:保存的couts数区域(制表符隔开)文件。

    --scalingFactors:计算比例因子(DESeq2 方式)能用于bamCoverage并写入一个文件。该文件用制表符隔开样品列和比例因子列。

    --extendReads(-e) : 该参数可以把reads扩展到fragment大小。

    --ignoreDuplicates:具有相同起始终止位点的reads仅读一次。

    --minMappingQuality:那些至少达到最低mapping质量得分的reads才能被考虑在内。

    --centerReads:相对于片段长度,reads处于中心位置。

    --samFlagInclude:基于sam flag包括在内的reads。默认值:None。

    --samFlagExclude:基于sam flag之外的reads。默认值:None。

    --minFragmentLength:最小的片段长度。默认值为0。

    --maxFragmentLength:最大的片段长度。默认值为0。


    (2)BED-file mode

    multiBamSummary BED-file --BED selection.bed --bamfiles file1.bam file2.bam -o results.npz

    参数:

    --bamfiles(-b):bam文件,文件之间用空格隔开。

    --outFileName(-out/-o): 输出文件名。

    --BED:限制覆盖度分析的区域。

    --labels(-l ) : 非默认的标签,用户自定义文件名标签。标签之间用空格隔开。

    --smartLabels: 不用手动给输入的bam文件加标签,deeptools 会移除路径和扩展名后使用文件名。

    --genomeChunkSize : 手动指定基因组大小。默认值为不指定,由bam文件的read 密度决定。

    --version: 显示程序版本号并退出。

    --region(-r): 用于限制运行的基因组区域。当测试参数时,利用--region这个参数可以大大减少运行时间。格式是:chr:start:end。如 -region chr10 或者 -region chr10:456700:891000。

    --blackListFileName(-bl):bed或gtf格式文件能够包括不用于分析的区域。通过排除基因组区块,能够产生重叠区域。对于Bam文件而言,如果一条read有部分黑名单区域或者片段间隔,那么这个read或者fragment也仍会被考虑在内。如果有相关情况,注意你应该调整有效的基因组大小。

    --numberOfProcessor(-p): 使用处理器的数量。默认值是1。

    --verbose(-v): 设置查看运行消息。

    --outRawCounts:保存的couts数区域(制表符隔开)文件。

    --scalingFactors:计算比例因子(DESeq2 方式)能用于bamCoverage并写入一个文件。该文件用制表符隔开样品列和比例因子列。

    --extendReads(-e) : 该参数可以把reads扩展到fragment大小。

    --ignoreDuplicates:具有相同起始终止位点的reads仅读一次。

    --minMappingQuality:那些至少达到最低mapping质量得分的reads才能被考虑在内。

    --centerReads:相对于片段长度,reads处于中心位置。

    --samFlagInclude:基于sam flag包括在内的reads。默认值:None。

    --samFlagExclude:基于sam flag之外的reads。默认值:None。

    --minFragmentLength:最小的片段长度。默认值为0。

    --maxFragmentLength:最大的片段长度。默认值为0。

    GTF/BED12 参数:

    --metagene : 当BED12或GTF文件用于提供区域,会计算合并的外显子,而不是用5'端或3'端来定义间隔。默认值是False。

    --transcriptID: 当GTF文件用于提供区域,第三列transcript用于计算。默认值是transcript。

    --exonID: 当GTF文件用于提供区域,第三列exon用于计算。默认值是exon。

    --transcript_id_designator: 默认值是transcript_id。


    三、deeptools multiBamSummary实际操作

    multiBamSummary bins --bamfiles x.bam y.bam --binSize=500 -p 20 --smartLabels -out readCounts.npz --outRawCounts readCounts.tab

    相关文章

      网友评论

        本文标题:deeptools系列01-multiBamSummary

        本文链接:https://www.haomeiwen.com/subject/zsyohltx.html