美文网首页
VCF&BCF格式

VCF&BCF格式

作者: 孟令君 | 来源:发表于2023-11-25 10:50 被阅读0次

    VCF 格式详解
    图文详解 VCF 格式
    vcf格式

    VCF – GATK
    Understanding VCF format

    简介

    VCF(Variant Call Format)是用于描述SNP,INDEL和SV结果的文本文件,用来存储基因序列上变异位点的数据格式。

    SNP&indel

    [图片上传失败...(image-55cce9-1700874579802)]

    一般用比对产生的bam文件作为输入,利用GATK等软件,以及参考基因组等数据综合分析最终产生VCF结果,记录测序结果里相对于参考序列的序列变异情况。

    基因组变异类型

    SNP

    • single nucleotide polymorphisms,单核苷酸多态性
    • 指一种碱基变为另一种碱基
    image

    INDEL

    • 指insert 插入& deletion删除 两种变异类型
    • INDEL发生变异的序列长度一般小于50bp

    SV

    • Structural Variant 结构变异,例如长片段的插入/删除,染色体倒位,拷贝数变异
    image

    格式

    注释信息(header):位于文件开始,以##开始
    包括元数据(metadata)和样本信息(sample information)。元数据描述了 VCF 文件的来源、过滤器、参考序列等信息,而样本信息则提供了每个样本的基因型信息

    变异信息(body):以#开头的字段以下即为变异信息

    1、CHROM:染色体编号;1…22,X,Y,M
    2、POS:变异在染色体上的相对位置
    3、ID:变异编号,可在dbSNP数据库中检索,为空用 . 表示;
    4、REF:参考基因组上该位点的碱基类型,即等位基因;


    image.png

    5、ALT:变异的碱基信息,若有多个,则使用逗号分隔。;
    6、QUAL:Q = -10×lg(P:该变异位点检测错误的概率)
    QUAL得分不仅仅取决于变异本身,还受到测序深度、覆盖度、序列质量等多种因素的影响。
    7、FILTER:过滤信息,PASS表明通过标准的好的变异位点
    如果这一栏是一个“.”的话,就说明没有进行过任何过滤。
    8、INFO:变异的详细信息key=value,key的具体描述在文件开头的 header lines 中显示。
    9、FORMAT:变异位点的格式,如GT:AD:DP:GQ:PGT:PID:PL:PS
    10、SAMPLEs: 各个样本的值,由BAM文件中@RG下的SM标签所决定。

    比对结果 VCF记录

    第八列INFO字段

    包含了对每个变异的详细描述信息。不同的变异类型会有不同的INFO字段,仅介绍部分。

    1、AC(Allele Count): 表示该变异的次生等位基因(ALT)在样本集合中出现的次数,以 , 进行分隔。
    2、AF(Alternate Allele Frequency):表示该变异的次生等位基因(ALT)在样本集合中的频率。
    3、AN(Allele Number):表示该变异的总等位基因数。
    对于一个二倍体而言:则基因型 0/1 表示sample为杂合子,Allele数为1(双倍体的sample在该位点只有1个等位基因发生了突变),Allele的频率为0.5(双倍体的sample在该位点只有50%的等位基因发生了突变),总的Allele为2; 基因型 1/1 则表示sample为纯合的,Allele数为2,Allele的频率为1,总的Allele为2。
    4、DP(Read Depth):表示覆盖该变异位点的测序深度。所有样本里发生该变异的read数目。
    5、MQ(Mapping Quality)表示用于对该变异进行比对的测序reads的平均质量。

    基因型信息

    基因型信息存储于第九列及之后,数据相互对应,前者为格式,后者为格式对应的数据。

    #CHROM POS     ID        REF    ALT     QUAL FILTER INFO                              FORMAT      NA00001        NA00002        NA00003
    20     14370   rs6054257 G      A       29   PASS   NS=3;DP=14;AF=0.5;DB;H2           GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:.,.
    20     17330   .         T      A       3    q10    NS=3;DP=11;AF=0.017               GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3   0/0:41:3
    

    1、GT:样品的基因型(genotype)。用 /或者| 分开,两个数字表示二倍体的sample的基因型。0/0 表示sample中该位点为纯合的,和ref一致; 0/1 表示sample中该位点为杂合的,有ref和variant两个基因型; 1/1 表示sample中该位点为纯合的,和variant一致。
    / 表示基因型未定相phasing:即不知道哪个等位基因来自父亲,哪个来自母亲。

    2、AD (Allele Depth):sample中allele的reads覆盖数,用逗号分割的两个值,前者对应ref基因型,后者对应variant基因型;也就是支持REF和支持ALT的测序深度。

    3、DP(Depth):sample中该位点的覆盖度(reads数)。

    4、GQ(Genotype Quality):基因型质量值:-10log10P(p为错误概率)。

    5、PL:指定基因型的似然值(provieds the likelihoods of the given genotypes)。这三种指定的基因型为(0/0,0/1,1/1),概率总和为1。其值越小表示该基因型的可能性越高

    6、PGT(Phased Genotype):已经经过相位分离(Phasing)的基因型。在未经过相位分离的VCF文件中,基因型信息不包含PGT和PID。

    7、PID(Phase ID):用于描述基因型相位的标识符。如果两个不同位点上的基因型具有相同的PID值,则表示这两个位点来自于同一个亲本(parent)。

    8、PS(Phase Set):用于描述同一样本中基因型相位的信息。

    实例

    #CHROM  POS ID      REF ALT QUAL    FILTER  INFO    FORMAT  NA12878
    chr1    873762  .       T   G   5231.78 PASS    AC=1;AF=0.50;AN=2;DP=315;Dels=0.00;HRun=2;HaplotypeScore=15.11;MQ=91.05;MQ0=15;QD=16.61;SB=-1533.02;VQSLOD=-1.5473 GT:AD:DP:GQ:PL   0/1:173,141:282:99:255,0,255
    chr1    877664  rs3828047   A   G   3931.66 PASS    AC=2;AF=1.00;AN=2;DB;DP=105;Dels=0.00;HRun=1;HaplotypeScore=1.59;MQ=92.52;MQ0=4;QD=37.44;SB=-1152.13;VQSLOD= 0.1185 GT:AD:DP:GQ:PL  1/1:0,105:94:99:255,255,0
    chr1    899282  rs28548431  C   T   71.77   PASS    AC=1;AF=0.50;AN=2;DB;DP=4;Dels=0.00;HRun=0;HaplotypeScore=0.00;MQ=99.00;MQ0=0;QD=17.94;SB=-46.55;VQSLOD=-1.9148 GT:AD:DP:GQ:PL  0/1:1,3:4:25.92:103,0,26
    chr1    974165  rs9442391   T   C   29.84   LowQual AC=1;AF=0.50;AN=2;DB;DP=18;Dels=0.00;HRun=1;HaplotypeScore=0.16;MQ=95.26;MQ0=0;QD=1.66;SB=-0.98 GT:AD:DP:GQ:PL  0/1:14,4:14:60.91:61,0,255
    

    chr1:873762 是一个新发现的T/G变异,并且有很高的可信度(qual=5231.78)。

    chr1:877664 是一个已知的变异为A/G 的SNP位点,名字rs3828047,并且具有很高的可信度(qual=3931.66)。

    chr1:899282 是一个已知的变异为C/T的SNP位点,名字rs28548431,但可信度较低(qual=71.77)。

    chr1:974165 是一个已知的变异为T/C的SNP位点,名字rs9442391,但是这个位点的质量值很低,被标 成了“LowQual”,在后续分析中可以被过滤掉。

    chr1    899282  rs28548431  C   T   [CLIPPED]  GT:AD:DP:GQ:PL    0/1:1,3:4:25.92:103,0,26
    

    在这个位点,GT=0/1,基因型是C/T;GQ=25.92,质量值并不算太高,DP=4,只有4条reads支持变异;AD=1,3,支持REF的read有一条,支持ALT的有3条;0/1的PL值为0,支持0/1的概率很高;但是1/1的PL值只有26,还有10(-2.6)=0.25%的可能性是1/1;几乎不可能是0/0,因为支持0/0的概率只有10(-10.3)=5*10-1

    转换

    vcf和bcf的关系与sam和bam的关系一样

    一般转换完在进行压缩,进一步节约存储。可以使用bcftools进行转换。注意,对于vcf或者bcf文件,bcftools默认是调用bgzip进行压缩的,扩展名也为.gz,千万不能自行调用gzip进行压缩,否则后面会出错。

    相关文章

      网友评论

          本文标题:VCF&BCF格式

          本文链接:https://www.haomeiwen.com/subject/pvrvwdtx.html