美文网首页GWAS学习WGS专题群体snp过滤参数设置
SNP过滤时常用参数的解析(群体遗传)

SNP过滤时常用参数的解析(群体遗传)

作者: bettermaan | 来源:发表于2020-04-01 15:56 被阅读0次

    关于为何要进行SNP的过滤:

    第一,低质量和无信息的SNP会影响后续群体结构或GWAS的分析结果,甚至影响后续对生物学问题的解释;第二,群体研究时,由于测序的个体较多检测出来的变异位点经常会数以千万计,进一步过滤会减少后续分析时,对计算资源的需求。

    indel邻近区域的SNP和10bp范围内的SNP cluster

    这两个参数并非通用,为什么要考虑它们见图片中的描述


    图片1.jpg

    10bp范围内有3个以上的SNP,去除掉

    #标出10bp范围3个SNP的 ”SnpCluster“
    gatk VariantFiltration -V 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.vcf -cluster 3 -window 10 -O 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.10-3filter.vcf
    #去除上一步标出的SnpCluster"
    gatk SelectVariants -V 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.10-3filter.vcf -O 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.10-3filter-2.vcf -select "FILTER == SnpCluster" --invertSelect
    

    去除indel附近5bp范围内的SNP

    bcftools filter -g 5 -O v -o 1-SnpGap5.vcf ../324.wgs.PASS.ANN.vcf.gz
    

    基因型的质量

    除了考虑位点的质量之外,还要考虑每个个体在这个位点上的基因型,只保留基因型上GQ值大于20,大于5条reads覆盖的基因型,否则设为miss即 ./.

    vcftools --vcf 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.10-3filter-2.vcf --minDP 5 --minGQ 20 --recode --recode-INFO-all --out test-minDP5-minGQ20.vcf
    

    其他常见的过滤参数主要有:

    最小等位基因频率(Minor Allele frequencies)

    MAF是次要等位基因频率。它是指群体中第二多的等位基因频率假设某一位点,检测到了A,T和C三种碱基,A出现20次,T出现10次,C出现5次,则第二多的T的等位基因频率为10/35

    下图所示的是不同SNP之间AF的差异。总共有324个二倍体个体,共648个位点,有些变异碱基只出现了1次或2次。

    示例文件.png

    缺失比例(missing rates)

    假如缺失比例为0.05,总共100个个体的情况下,则该SNP在100*0.05=5个个体中丢失。

    bi-allelic位点

    为什么一般只保留bi-allelic SNP,要去除multi-allelic SNP?

    bi-allelic位点是指基因组的某个位置上有两个allele,其中参考基因组在该位点上的碱基算作一个allele,样本在该位置上的变异算作一个allele。所以bi-allelic 位点即该位点只有一种变异。例如下图所示的位点7只有一种变异,样本1-3的deletion。


    example1.png

    而下图所示的位点7则是一个multi-allelic位点,有参考基因组的G和样本2的C和样本3的T两种SNP。


    example2.png

    质量(Quality)

    在将样本的reads比对到参考基因组上后,比对到某个SNP的reads数量越多,则该SNP的Q值越大即越可信。

    连锁不平衡(LD)

    进行群体遗传结构分析时,如果位点之间有强连锁的关系则会影响分析的结果,因此需要过滤掉互相之间连锁不平衡的SNP。

    相关文章

      网友评论

        本文标题:SNP过滤时常用参数的解析(群体遗传)

        本文链接:https://www.haomeiwen.com/subject/omrauhtx.html