美文网首页生物信息软件GWAS
GATK4-部分工具包常用参数记录

GATK4-部分工具包常用参数记录

作者: _nnnoOooM | 来源:发表于2018-09-11 15:21 被阅读38次
    1. VariantFiltration
      Filter variant calls based on INFO and/or FORMAT annotaitions.
    gatk VariantFiltration \
    -R reference.fasta\
    -V input.vcf.gz\
    -O output.vcf.gz\
    --fitler-expression "AB<0.2 || MQ0 >50" \
    --fitler-name "my_filters"
    

    不能使用VQSR,但需要对HaplotypeCaller的结果进行handfilter时可以用这个工具。

    1. FixMateInformation(Picard)
      Verify mate-pair information between mates and fix if needed.
    java -jar --Xmx4g picard.jar  FixMateInformation \
                      I=input.bam \
                      O=fixed_mate.bam \
                      ADD_MATE_CIGAR=true AS=true \
                      SO=coordinate 
    

    这一步是放在MarkDuplicates后面,查到有别人说如果MarkDuplicates 把重复去掉了,会对mate信息产生影响。如果MarkDuplicates只是标记而没有去除重复,则不会对mate信息产生影响,理论上可以不用做FixMate.
    我比较了输入文件和输出文件的大小,fix之后的文件要大一些。

    3.SelectVariants
    Select a subset of variants from a VCF file.

    gatk SelectVariants \
    -R reference.fasta \
    -V input.vcf \
    -selectType SNP \
    -O output.vcf
    

    -selectType :INDEL,SNP,MIXED,MNP,SYMBOLIC,NO_VARIATION.(can be specified multiple times.)
    常用的是从vcf中把snp和indel分别输出到两个文件。

    相关文章

      网友评论

        本文标题:GATK4-部分工具包常用参数记录

        本文链接:https://www.haomeiwen.com/subject/cmiygftx.html