美文网首页
VCF (Variant Call Format)

VCF (Variant Call Format)

作者: 不到15不改名 | 来源:发表于2019-03-12 17:33 被阅读0次

    举个栗子:

    image.png

    Meta informations

    这块儿由##打头,第一行必须是VCF的版本信息

    1. INFO
      规定VCF主体部分INFO字段可能出现的变量和对应值的数目、类型
      比如,特殊地,##INFO=<ID=AF,Number=A,Type=Float,Description"Allele Frequency">表示对于INFO字段中的AF键来说,它的值的数目跟alternative allele一样多 (Number=A的意思就是每个alternate allele一个值)。其它各种奇奇怪怪的特殊规定见参考文献
    2. FILTER
      规定VCF主体部分FILTER字段可能出现的类型,好像PASS不用特意规定?
    3. FORMAT
      这个比较重要,规定VCF主题部分FORMAT字段可能出现的类型。FORMAT字段与样本具体信息是对应的,信息由冒号分割。
      GT,GQ,DP,HQ分别表示基因型(genotype),基因型质量(genotype quality),片断覆盖度(read depth),单体型质量(haplotype quality)。片段覆盖度就是比对之后,有多少片段与这个位点有overlap(猜测可能可以作为基因型可信度的一个指标?read少的话,偶然情况比较大,得到的基因型可信度不高?)。
      GT是1|0表示这是个二倍体,1表示第一个alternate allele (对应ALT字段的第一个allele),0表示reference allele(对应REF字段中的allele),另外|表示该基因型已被分型(就是把allele属于两条染色体的哪个已经分配好了,具体算法得有利用富含杂合位点的片段来做的或者直接家系信息,GATK4应该有具体的实现)。如果是未分型的,则是1/0。如果是三倍体,则是类似0/1/0这种。

    Data lines

    1. 固定的字段

    2. 样本基因型字段


    参考:
    https://github.com/samtools/hts-specs

    相关文章

      网友评论

          本文标题:VCF (Variant Call Format)

          本文链接:https://www.haomeiwen.com/subject/vzknpqtx.html