美文网首页生信笔记
GATK DepthOfCoverage 太慢

GATK DepthOfCoverage 太慢

作者: 11的雾 | 来源:发表于2022-02-25 11:29 被阅读0次
    gatk DepthOfCoverage \
        --input ../duplicates_marked_sorted_fixed.BQSR.bam  \
        -L  whole_exome_illumina_hg38.targets.interval_list \
        -O test.coverage.csv \
        --create-output-variant-index \
        -R Homo_sapiens_assembly38.fasta \
        --output-format CSV \
        --print-base-counts \
        --QUIET
    

    DepthOfCoverage会输出7个文本结果。其中一个是按照interval上的每个碱基,输出一行统计信息,所以会比较慢:

    .DepthOfCoverage.txt结果


    image.png

    DepthOfCoverage为基因组上的每个碱基输出一行结果,这导致结果文件太大,而且运行速度极慢,如果不需要每个碱基,则可以设置--omit-depth-output-at-each-base,

    .sample_interval_summary结果:


    image.png

    .sample_summary结果:


    image.png

    .sample_interval_statistics结果


    image.png

    .sample_statistics结果:


    image.png

    .sample_cumulative_coverage_counts结果:


    image.png

    另外如果可以将interval list拆分成更多的话,区间统计能够合并,但是GATK不能输出合并的结果

    按照每个碱基的深度结果,可以写脚本处理成为按染色体统计深度,和覆盖度的表格:


    image.png

    最后用统计结果画图:


    coverage and depth.png

    相关文章

      网友评论

        本文标题:GATK DepthOfCoverage 太慢

        本文链接:https://www.haomeiwen.com/subject/jujxrrtx.html