参考资料:https://gatk.broadinstitute.org/hc/en-us/articles/360035531692-VCF-Variant-Call-Format
学习目标 :质控 提取所需数据
1.什么是VCF
VCF或Variant Call Format,它是一种标准的文本文件格式,用于表示SNP,插入/缺失和结构性变异调用。VCF格式非常明确地显示了变异的确切类型和序列以及该变异的多个样本的基因型。VCF文件是纯文本文件,因此可以在任何文本编辑器中查看或编辑,但要注意vcf有时候可能会非常大,本地电脑打卡可能会非常占内存,必要可以用notepad++打开,或者BowPad。
2.VCF文件结构
我们来看一个vcf的标准例子,如下:
我们把它分为两部分看,第一部分归类为说明文件(头文件),即每一列前都有两个#符号的。第二部分为我们需要用的到分型信息。
如果我们在rstudio中读取该文件,则将会被分成三个部分:mate,fix,gt。其中meta存储着vcf的头文件,而fix存储在vcf的固定列,gt存储在样本基因型信息。稍后再展开说明。
我们将第二部分的标题进一步展开说明。
CHROM 和 POS:代表参考序列名和variant的位置。
ID:variant的ID。
REF 和 ALT:参考序列的碱基 和 Variant的碱基。
QUAL:表示该位点存在variant的可能性。
FILTER:进一步过滤原始位点,过滤结果中通过则该值为”PASS”;若variant不可靠,则该项不为”PASS”或”.”。
INFO: variant的详细信息。
FORMAT 和 NA00001:这两行合起来提供了’NA00001’这个sample的基因型的信息。
基因型信息
接下来进一步看基因型信息,如下图:
看最后FORMAT和M2两列,这两列数据是对应的,前者为格式,后者为格式对应的数据。
GT:样品的基因型(genotype)。两个数字中间用’/’分开,这两个数字表示双倍体的样本基因型。0 表示样品中有ref的allele; 1 表示样品中variant的allele; 2表示有第二个variant的allele。因此: 0/0 表示sample中该位点为纯合的,和ref一致; 0/1 表示sample中该位点为杂合的,有ref和variant两个基因型; 1/1 表示sample中该位点为纯合的,和variant一致。
AD: 对应两个以逗号隔开的值,这两个值分别表示覆盖到REF和ALT碱基的reads数,相当于支持REF和支持ALT的测序深度。
DP:覆盖到这个位点的总的reads数量,相当于这个位点的深度(并不是多有的reads数量,而是大概一定质量值要求的reads数)。
网友评论