美文网首页生信小白的deeptools笔记本
deeptools系列01-multiBamSummary

deeptools系列01-multiBamSummary

作者: 想要学好生信的小白 | 来源:发表于2021-05-07 14:39 被阅读0次

一、deeptools multiBamSummary详细介绍

官网说明书——deeptools multiBamSummary

功能:计算两个以上(含两个)BAM文件的基因组区域的覆盖度。

两种模式:

        bin模式是对全基因组进行计算,针对大小相等的bins(默认值:10kb),这种模式用于评估BAM文件的全基因组相似性;

        BED-file模式是对指定区域进行计算。

标准输出文件:

        以.npz为后缀的文件,该文件不仅可以直接用于deeptools中的“plotCorrelation”计算并可视化覆盖度之间的相关性,而且也能用于deeptools中的“plotPCA”进行主成分分析。


二、deeptools multiBamSummary用法及参数

(1)bins mode

multiBamSummary bins --bamfiles file1.bam file2.bam -o results.npz

--bamfiles(-b):bam文件

--outFileName(-out / -o ):  输出文件名。

参数:

--labels(-l ) : 非默认的标签,用户自定义文件名标签。标签之间用空格隔开。

--smartLabels: 不用手动给输入的bam文件加标签,deeptools 会移除路径和扩展名后使用文件名。

--genomeChunkSize : 手动指定基因组大小。默认值为不指定,由bam文件的read 密度决定。

--binSize (-bs): 用于样品的基因组窗口大小。默认值是10kb。

--distanceBetweenBins (-n ): 默认情况下,multiBamSummary认为窗口是连续的。但是,为了节省计算时间,可以指定比窗口数更大的间隔长度,服务器会识别更少的bins.默认值是0。

--version: 显示程序版本号并退出。

--region(-r): 用于限制运行的基因组区域。当测试参数时,利用--region这个参数可以大大减少运行时间。格式是:chr:start:end。如 -region chr10 或者 -region chr10:456700:891000。

--blackListFileName(-bl):bed或gtf格式文件能够包括不用于分析的区域。通过排除基因组区块,能够产生重叠区域。对于Bam文件而言,如果一条read有部分黑名单区域或者片段间隔,那么这个read或者fragment也仍会被考虑在内。如果有相关情况,注意你应该调整有效的基因组大小。

--numberOfProcessor(-p): 使用处理器的数量。默认值是1。

--verbose(-v): 设置查看运行消息。

--outRawCounts:保存的couts数区域(制表符隔开)文件。

--scalingFactors:计算比例因子(DESeq2 方式)能用于bamCoverage并写入一个文件。该文件用制表符隔开样品列和比例因子列。

--extendReads(-e) : 该参数可以把reads扩展到fragment大小。

--ignoreDuplicates:具有相同起始终止位点的reads仅读一次。

--minMappingQuality:那些至少达到最低mapping质量得分的reads才能被考虑在内。

--centerReads:相对于片段长度,reads处于中心位置。

--samFlagInclude:基于sam flag包括在内的reads。默认值:None。

--samFlagExclude:基于sam flag之外的reads。默认值:None。

--minFragmentLength:最小的片段长度。默认值为0。

--maxFragmentLength:最大的片段长度。默认值为0。


(2)BED-file mode

multiBamSummary BED-file --BED selection.bed --bamfiles file1.bam file2.bam -o results.npz

参数:

--bamfiles(-b):bam文件,文件之间用空格隔开。

--outFileName(-out/-o): 输出文件名。

--BED:限制覆盖度分析的区域。

--labels(-l ) : 非默认的标签,用户自定义文件名标签。标签之间用空格隔开。

--smartLabels: 不用手动给输入的bam文件加标签,deeptools 会移除路径和扩展名后使用文件名。

--genomeChunkSize : 手动指定基因组大小。默认值为不指定,由bam文件的read 密度决定。

--version: 显示程序版本号并退出。

--region(-r): 用于限制运行的基因组区域。当测试参数时,利用--region这个参数可以大大减少运行时间。格式是:chr:start:end。如 -region chr10 或者 -region chr10:456700:891000。

--blackListFileName(-bl):bed或gtf格式文件能够包括不用于分析的区域。通过排除基因组区块,能够产生重叠区域。对于Bam文件而言,如果一条read有部分黑名单区域或者片段间隔,那么这个read或者fragment也仍会被考虑在内。如果有相关情况,注意你应该调整有效的基因组大小。

--numberOfProcessor(-p): 使用处理器的数量。默认值是1。

--verbose(-v): 设置查看运行消息。

--outRawCounts:保存的couts数区域(制表符隔开)文件。

--scalingFactors:计算比例因子(DESeq2 方式)能用于bamCoverage并写入一个文件。该文件用制表符隔开样品列和比例因子列。

--extendReads(-e) : 该参数可以把reads扩展到fragment大小。

--ignoreDuplicates:具有相同起始终止位点的reads仅读一次。

--minMappingQuality:那些至少达到最低mapping质量得分的reads才能被考虑在内。

--centerReads:相对于片段长度,reads处于中心位置。

--samFlagInclude:基于sam flag包括在内的reads。默认值:None。

--samFlagExclude:基于sam flag之外的reads。默认值:None。

--minFragmentLength:最小的片段长度。默认值为0。

--maxFragmentLength:最大的片段长度。默认值为0。

GTF/BED12 参数:

--metagene : 当BED12或GTF文件用于提供区域,会计算合并的外显子,而不是用5'端或3'端来定义间隔。默认值是False。

--transcriptID: 当GTF文件用于提供区域,第三列transcript用于计算。默认值是transcript。

--exonID: 当GTF文件用于提供区域,第三列exon用于计算。默认值是exon。

--transcript_id_designator: 默认值是transcript_id。


三、deeptools multiBamSummary实际操作

multiBamSummary bins --bamfiles x.bam y.bam --binSize=500 -p 20 --smartLabels -out readCounts.npz --outRawCounts readCounts.tab

相关文章

网友评论

    本文标题:deeptools系列01-multiBamSummary

    本文链接:https://www.haomeiwen.com/subject/zsyohltx.html