美文网首页
对bam文件做downsample

对bam文件做downsample

作者: gtt儿_生物信息学习 | 来源:发表于2020-04-28 08:40 被阅读0次

    微信公众号:生物信息学习

    如果各个样本测的数据量相差较大,想把这些样本downsample到相同的reads,可用以下方法:
    目标reads数为15000000,需要先计算出需要downsample的比例,因为我用的downsample工具samtools无法downsample到特定reads数,只能downsample到一定的比例,因此想要downsample到固定reads,则需要先用目标reads数/总reads数作为downsample的比例,再用samtools提取reads,代码如下:

    #samtools无法直接downsample到一个固定数目的reads
    frac=$( samtools idxstats input.bam | cut -f3 | awk 'BEGIN {total=0} {total += $1} END {frac=15000000/total; if (frac > 1) {print 1} else {print frac}}' )
    
    samtools view -s $frac input.bam > subsample.bam
    

    最终就可以得到我们的目标reads数很接近的reads了。

    相关文章

      网友评论

          本文标题:对bam文件做downsample

          本文链接:https://www.haomeiwen.com/subject/qhtwihtx.html