美文网首页
VCF文件格式

VCF文件格式

作者: 谁冒充我小叮当 | 来源:发表于2021-11-18 19:24 被阅读0次

文章仅是记录自己的学习使用,有错误请指出,我立刻改正!

官方说明:https://www.internationalgenome.org/wiki/Analysis/vcf4.0/
更多说明:
https://cloud.tencent.com/developer/article/1607926
https://www.jianshu.com/p/b2b30b23c866
https://zhuanlan.zhihu.com/p/519356332

一、注释部分

“#”开头的注释部分,包含对VCF的介绍信息

##fileformat=VCFv4.2
##fileDate=20211116
##source=freeBayes v1.3.4
##reference=genome.fasta
##contig=<ID=Chr01,length=70190195>
##contig=<ID=Chr02,length=25710898>
##contig=<ID=Chr04,length=25286349>
##contig=<ID=Chr05,length=24731975>
......
##commandline="freebayes -f genome.fasta --use-best-n-alleles 3 --min-mapping-quality 20 merge.bam 
##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of samples with data">
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total read depth at the locus">
##INFO=<ID=DPB,Number=1,Type=Float,Description="Total read depth per bp at the locus; bases in reads overlapping / bases in haplotype">
##INFO=<ID=AC,Number=A,Type=Integer,Description="Total number of alternate alleles in called genotypes">
##INFO=<ID=AN,Number=1,Type=Integer,Description="Total number of alleles in called genotypes">
##INFO=<ID=AF,Number=A,Type=Float,Description="Estimated allele frequency in the range (0,1]">
##INFO=<ID=RO,Number=1,Type=Integer,Description="Count of full observations of the reference haplotype.">
......

二、主体部分

[0]CHROM    [1]POS    [2]ID    [3]REF    [4]ALT    [5]QUAL    [6]FILTER    [7]INFO    [8]FORMAT    [9]SAMPLES
[0]Chr05    [1]20000355    [2].    [3]A    [4]G    [5]51.3669   [6].    [7]AB=0;ABP=0;AC=6;AF=0.428571;AN=14;AO=4;CIGAR=1X;......TYPE=snp    [8]GT:DP:AD:RO:QR:AO:QA:GL [9]1/1:1:0,1:0:0:1:37:-3.69783,-0.30103,0
  • [0] CHROM : 参考序列名称,表示变异位点是在哪个contig/chr里call出来的。
  • [1] POS: 变异位点(variant)相对于参考基因组所在的位置,发生变异的位置的第一个碱基所在的位置)。
  • [2] ID:variant的ID,如call出来的SNP存在于dbSNP数据库里,就会显示相应的dbSNP里的rs编号,若没有,则默认使用‘.’。
  • [3] REF:参考序列的Allele,(等位碱基,即参考序列该位置的碱基类型及碱基数量)。
  • [4] ALT:变异位点的Allele,若有多个,则使用逗号分隔,(变异所支持的碱基类型及碱基数量)这里的碱基类型和碱基数量,对于SNP来说是单个碱基类型的编号,而对于Indel来说是指碱基个数的添加或缺失,以及碱基类型的变化。
  • [5] QUAL:可以理解为变异位点的质量值。Q=-10lgP,Q表示质量值,P表示这个位点发生错误的概率。因此,如果想把错误率控制在10%,P的阈值就是1/10,那lg(1/10)=-1,Q=(-10)*(-1)=10。同理,当Q=20时,错误率就控制在了0.01。
  • [6] FILTER:理想情况下,QUAL这个值应该是用所有的错误模型算出来的,这个值就可以代表正确的变异位点了,但这是做不到的。因此,还需要对原始变异位点做进一步的过滤。FILTER,即过滤记录,PASS代表通过了filter,“.”代表没有进行任何过滤。
  • [7] INFO : 变异位点的相关信息
  • [8] FORMAT:变异位点的格式,例如GT:AD:DP:GQ:PL
  • [9] SAMPLES : 各个Sample的值,由BAM文件中的@RG下的SM标签所决定,这些值对应着FORMAT列的各个格式,不同格式的值用冒号分开,每一个sample对应着1列;多个samples则对应着多列。

三、FORMAT列详解

(一)GT : genotype

  • 样品的基因型(genotype),两个数字中间用‘/’分开,两个数字表示双倍体的sample的基因型。0表示样品中有ref的allele(可初步理解为和ref的碱基相同,即和REF相同);1表示样品中的variant的allele(可以理解为和variant变异后的碱基相同,即和ALT相同);2表示有第二个variant的allele(和ALT的第二种碱基相同)对于SNP是指单个碱基类型相同而对于Indel是指碱基类型及个数均相同
0/0表示sample中该位点为纯合位点,和REF的碱基类型一致
0/1表示sample中该位点为杂合突变,有REF和ALT两个基因型(部分碱基和REF碱基类型一致,部分碱基和ALT碱基类型一致)
1/1表示sample中该位点为纯合突变,总体突变类型和ALT碱基类型一致
1/2表示sample中该位点为杂合突变,有ALT1和ALT2两个基因型(部分和ALT1碱基类型一致,部分和ALT2碱基类型一致)

(二)AD和DP

  • AD(Allele Depth)为sample中每一种allele(等位碱基)的reads覆盖度,在diploid(二倍体,或可指代多倍型)中则是用逗号分隔的两个值,前者对应REF基因,后者对应ALT基因型。
  • DP(Depth)为sample中该位点的覆盖度,是两个AD值的加和。覆盖到这个位点的总的reads数量,相当于这个位点的深度(并不是多有的reads数量,而是大概一定质量值要求的reads数)。
例:GT:AD(REF),AD(ALT):DP  1/1:0,175:175

(三)GQ

  • 基因型的质量值(Genotype Quality)。Phred格式(Phred_scaled)的质量值,表示在该位点该基因型存在的可能性;该值越高,则Genotype的可能性越大;计算方法:Phred值=-10*log(1-P),P为基因型存在的概率(一般在final.snp.vcf文件中,该值为99,为99时,其可能性最大)。
  • QUAL和GQ的区别:
    1、QUAL,Phred格式(Phred_scaled)的质量值,表示在该位点存在variant的可能性;该值越高,则variant的可能性越大;计算方法:Phred值 = -10 * log (1-p) p为variant存在的概率; 通过计算公式可以看出值为10的表示错误概率为0.1,该位点为variant的概率为90%。
    2、GQ,基因型的质量值(Genotype Quality)。Phred格式(Phred_scaled)的质量值,表示在该位点该基因型存在的可能性;该值越高,则Genotype的可能性越大;计算方法:Phred值 = -10 * log (1-p) p为基因型存在的概率。
    GQ告诉我们对分配给特定样品的基因型正确的概率有多大。
    QUAL是指变异位点,而GQ是指特定样品的GT。
    QUAL告诉我们对于给定位点是否存在变异,该变异可以存在于一个或多个样本中。
    也就是QUAL是针对该位点的,和样本无关,只是说明这个位点存在变异的可能性,而GQ是和样本相关的,它表示该样本基因型的可能性。

(四)PL(likelihood genotypes)

对应3个以逗号隔开的值,这三个值分别表示该位点基因型是0/0,0/1,1/1的没经过先验的标准化Phred-scaled似然值(L)。这个值越小,概率就越大,即这个基因型的可能性越大。

四、INFO列详解

  • 第8列的信息包括18种,都是以“TAG=Value”,并使用分号分隔的形式,其中大多在VCF文件的头部注释中给出

(一)AC,AF和AN

  • AC:variant数目,AF:频率,AN:总数目
AC(Allele Count)表示与variant一致的Allele(等位碱基)的数目
AF(Allele Frequency)表示Allele的频率,AF值=AC值/AN值
AN(Allele Number)表示Allele的总数目。

(二)DP

  • 表示过滤后的reads覆盖度。

(三)FS

  • FisherStrand,表示使用Fisher’s精确检验来检测strand bias,得到的Fhred格式的p值,该值越小越好;如果该值较大,表示strand bias(正负链偏移)越严重,即所检测到的variants位点上,reads比对到正负义链上的比例不均衡。
    一般进行filter的时候,推荐保留FS<10~20的variants位点。GATK可设定FS参数。

(四)ReadPosRandSum

  • 当variants出现在reads尾部的时候,其结果可能不准确。该值用于衡量alternative allele,相比于reference allele,variant位点是否匹配到reads更靠中部的位置。
    因此只有基因型是杂合且有一个allele和参考基因组一致的时候,才能计算该值。
    1、若该值为正值,表明和alternative allele相当于reference allele,落来reads更靠中部的位置
    2、若该值是负值,则表示alternative allele相比于reference allele落在reads更靠尾部的位置。
    进行filter的之后,推荐保留ReadPosRankSum>-1.65~-3.0的variant位点。

(五)MQRankSum

  • 该值用于衡量alternative allele上reads的mapping quality与reference allele上reads的mapping quality的差异。若该值是负数值,则表明alternative allele比reference allele的reads mapping quality差。
    进行filter的时候,推荐保留MQRankSum>-1.65~-3.0的variant位点。

相关文章

  • 2019-07-26用EIGENSOFT的smartpca进行主

    1.vcftools或plink进行文件格式转换 vcftools --vcf myfile.vcf --plin...

  • biostar handbook(十一)|基因组变异的表示形式

    VCF文件格式 在biostar handbook(十)|如何进行变异检测部分我们最后以VCF格式存放找到的变异。...

  • VCF文件格式

    VCF文件全称为Variant Call Format,表示基因组的变异信息,通常为GATK和Samtools软件...

  • VCF文件格式

    文章仅是记录自己的学习使用,有错误请指出,我立刻改正! 官方说明:https://www.internationa...

  • ANNOVAR结果说明-SNP/INDEL

    一,结果文件说明 1 VCF (Variant Call Format)是储存Variation结果的文件格式...

  • VCF文件格式解析

    VCF文件全称为Variant Call Format,表示基因组的变异信息,通常为GATK和Samtools软件...

  • VCF文件格式说明

    1. 什么是VCF CVF是用于描述SNP,INDEL和SV结果的文本文件。在GATK软件中得到最好的支持,当然S...

  • VCF文件格式说明

    1. VCF介绍 CVF是用于描述SNP,INDEL和SV结果的文本文件。在GATK软件中得到最好的支持,当然SA...

  • SV VCF格式的说明及转换

    不同的结构变异(structural variation,SV)鉴定工具鉴定出的VCF结果文件格式不尽相同,但也不...

  • treemix使用2021-03-11

    一、vcf文件格式转换 转换成plink格式 注意:plink2treemix.py[http://plink2t...

网友评论

      本文标题:VCF文件格式

      本文链接:https://www.haomeiwen.com/subject/gghjtrtx.html