一、deeptools multiBamSummary详细介绍
官网说明书——deeptools multiBamSummary
功能:计算两个以上(含两个)BAM文件的基因组区域的覆盖度。
两种模式:
bin模式是对全基因组进行计算,针对大小相等的bins(默认值:10kb),这种模式用于评估BAM文件的全基因组相似性;
BED-file模式是对指定区域进行计算。
标准输出文件:
以.npz为后缀的文件,该文件不仅可以直接用于deeptools中的“plotCorrelation”计算并可视化覆盖度之间的相关性,而且也能用于deeptools中的“plotPCA”进行主成分分析。
二、deeptools multiBamSummary用法及参数
(1)bins mode
multiBamSummary bins --bamfiles file1.bam file2.bam -o results.npz
--bamfiles(-b):bam文件
--outFileName(-out / -o ): 输出文件名。
参数:
--labels(-l ) : 非默认的标签,用户自定义文件名标签。标签之间用空格隔开。
--smartLabels: 不用手动给输入的bam文件加标签,deeptools 会移除路径和扩展名后使用文件名。
--genomeChunkSize : 手动指定基因组大小。默认值为不指定,由bam文件的read 密度决定。
--binSize (-bs): 用于样品的基因组窗口大小。默认值是10kb。
--distanceBetweenBins (-n ): 默认情况下,multiBamSummary认为窗口是连续的。但是,为了节省计算时间,可以指定比窗口数更大的间隔长度,服务器会识别更少的bins.默认值是0。
--version: 显示程序版本号并退出。
--region(-r): 用于限制运行的基因组区域。当测试参数时,利用--region这个参数可以大大减少运行时间。格式是:chr:start:end。如 -region chr10 或者 -region chr10:456700:891000。
--blackListFileName(-bl):bed或gtf格式文件能够包括不用于分析的区域。通过排除基因组区块,能够产生重叠区域。对于Bam文件而言,如果一条read有部分黑名单区域或者片段间隔,那么这个read或者fragment也仍会被考虑在内。如果有相关情况,注意你应该调整有效的基因组大小。
--numberOfProcessor(-p): 使用处理器的数量。默认值是1。
--verbose(-v): 设置查看运行消息。
--outRawCounts:保存的couts数区域(制表符隔开)文件。
--scalingFactors:计算比例因子(DESeq2 方式)能用于bamCoverage并写入一个文件。该文件用制表符隔开样品列和比例因子列。
--extendReads(-e) : 该参数可以把reads扩展到fragment大小。
--ignoreDuplicates:具有相同起始终止位点的reads仅读一次。
--minMappingQuality:那些至少达到最低mapping质量得分的reads才能被考虑在内。
--centerReads:相对于片段长度,reads处于中心位置。
--samFlagInclude:基于sam flag包括在内的reads。默认值:None。
--samFlagExclude:基于sam flag之外的reads。默认值:None。
--minFragmentLength:最小的片段长度。默认值为0。
--maxFragmentLength:最大的片段长度。默认值为0。
(2)BED-file mode
multiBamSummary BED-file --BED selection.bed --bamfiles file1.bam file2.bam -o results.npz
参数:
--bamfiles(-b):bam文件,文件之间用空格隔开。
--outFileName(-out/-o): 输出文件名。
--BED:限制覆盖度分析的区域。
--labels(-l ) : 非默认的标签,用户自定义文件名标签。标签之间用空格隔开。
--smartLabels: 不用手动给输入的bam文件加标签,deeptools 会移除路径和扩展名后使用文件名。
--genomeChunkSize : 手动指定基因组大小。默认值为不指定,由bam文件的read 密度决定。
--version: 显示程序版本号并退出。
--region(-r): 用于限制运行的基因组区域。当测试参数时,利用--region这个参数可以大大减少运行时间。格式是:chr:start:end。如 -region chr10 或者 -region chr10:456700:891000。
--blackListFileName(-bl):bed或gtf格式文件能够包括不用于分析的区域。通过排除基因组区块,能够产生重叠区域。对于Bam文件而言,如果一条read有部分黑名单区域或者片段间隔,那么这个read或者fragment也仍会被考虑在内。如果有相关情况,注意你应该调整有效的基因组大小。
--numberOfProcessor(-p): 使用处理器的数量。默认值是1。
--verbose(-v): 设置查看运行消息。
--outRawCounts:保存的couts数区域(制表符隔开)文件。
--scalingFactors:计算比例因子(DESeq2 方式)能用于bamCoverage并写入一个文件。该文件用制表符隔开样品列和比例因子列。
--extendReads(-e) : 该参数可以把reads扩展到fragment大小。
--ignoreDuplicates:具有相同起始终止位点的reads仅读一次。
--minMappingQuality:那些至少达到最低mapping质量得分的reads才能被考虑在内。
--centerReads:相对于片段长度,reads处于中心位置。
--samFlagInclude:基于sam flag包括在内的reads。默认值:None。
--samFlagExclude:基于sam flag之外的reads。默认值:None。
--minFragmentLength:最小的片段长度。默认值为0。
--maxFragmentLength:最大的片段长度。默认值为0。
GTF/BED12 参数:
--metagene : 当BED12或GTF文件用于提供区域,会计算合并的外显子,而不是用5'端或3'端来定义间隔。默认值是False。
--transcriptID: 当GTF文件用于提供区域,第三列transcript用于计算。默认值是transcript。
--exonID: 当GTF文件用于提供区域,第三列exon用于计算。默认值是exon。
--transcript_id_designator: 默认值是transcript_id。
三、deeptools multiBamSummary实际操作
multiBamSummary bins --bamfiles x.bam y.bam --binSize=500 -p 20 --smartLabels -out readCounts.npz --outRawCounts readCounts.tab
网友评论