美文网首页funny生物信息
使用pysam操作VCF/BCF文件

使用pysam操作VCF/BCF文件

作者: xuzhougeng | 来源:发表于2018-04-25 13:33 被阅读935次

使用pysam操作VCF/BCF文件

读取和写出

from pysam import VariantFile
bcf_in  = VariantFile("test_in.vcf", "r")
bcf_out = VariantFile("test_out.vcf", "w", header=bcf_in.header)
for rec in bcf_in.fecth():
    bcf_out.write(rec)

VariantFile函数得到的是 pysam.libcbcf.VariantFile 对象, 这是一个可遍历对象, 通过dir()可以发现它有__iter____next__方法。因此如果仅仅是遍历全部记录,那么__iter__等价于fecth.

type(bcf_in) # 对象类型
dir(bcf_out) # 方法

VCF格式分为Header和Record两个部分. record记录每个变异位点的具体信息,为了从中提取所需数据,需要理解Pysam的解析策略。

rec1 = bcf_in.__next__()
dir(rec1)

vcf的record每一行都是9列+N列样本(CHROM, POS, ID, REF, ALT, QUAL, FILTER, INFO, FORMAT, sample1, sample2,..), 解析之后就是如下方法

  • .chrom: 返回字符串
  • .pos: 返回数值。 这个是以0为基, 可以用.start和.stop
  • .id: 如果无记录, 就是NoneType
  • .ref: 返回字符串
  • .alt: 返回元祖(tuple), 因为一个位点上可以有多个变异类型
  • .qual: 返回数值
  • .filter: 返回pysam.libcbcf.VariantRecordFilter对象, 类似于字典
  • .info: 返回pysam.libcbcf.VariantRecordInfo对象,类似于字典, 存放所有样本的统计信息
  • .format: 返回pysam.libcbcf.VariantRecordFormat,类似于字典, 存放后续每个样本数据存放顺序和数据类型
  • .samples: 返回pysam.libcbcf.VariantRecordSamples, 类似于字典, 存放每一个样本的具体信息

.filter, .info, .format, .samples虽然都能返回类字典(或者说哈希表)数据结果,但是在方法上存在差别。

VariantRecordFilter对象可以通过.filter.add增加过滤类型, 当然需要事先在header中添加元信息,如下:

bcf_in.header.filters.add(id="ugly",number=None, type=None,description="i don't likt it") #增加员信息
rec = bcf_in.__next__()
rec.filter.add("ugly") # 增加过滤条件
rec.filter.keys() # 查看

VariantRecordInfo对象可以删除一个键值对(pop),可以更新已有的键值对。

rec.info.pop('TYPE') # 删除TYPE
rec.info['ODDS'] # 变更前
rec.info.update({'ODDS':12}) #变更
rec.info['ODDS'] # 变更后

VariantRecordFormat和VariantRecordSamples关系比较紧密,但前者只能查看不提供方法进行修改, 而VariantRecordSamples和VariantRecordInfo一致。由于可以有多个样本,提取数据的时候就需要多层迭代,例如提取所有样本的GT

for key,value in rec.samples.iteritems():
    print(key, value['GT'])

例如只有两个样本,我想比较这两个样本的GT是否相同

GT = [value['GT'] for value in rec.samples.values()]
GT[0].__eq__(GT[-1])

综上,就可以在Python中写出一个过滤器剔除缺失基因组记录,保留其中样本基因组纯合但不同的记录

import sys
from pysam import VariantFile as vcf

if len(sys.argv) < 3:
    sys.exit(1)
else:
    in_name  = sys.argv[1]
    out_name = sys.argv[2]

bcf_in  = vcf(in_name)
# add metadata
command = "##pysamCommand=GT[0].__ne__((None,)) and GT[-1].__ne__((None,)) and GT[0].__ne__(GT[-1]) and GT[0].__ne__((0,1)) and GT[-1].__ne__((0,1))"
bcf_in.header.add_line(command)
bcf_out = vcf(out_name, "w", header=bcf_in.header)

for rec in bcf_in.__iter__():
    GT = [value['GT'] for value in rec.samples.values()]
    if GT[0].__ne__((None,)) and GT[-1].__ne__((None,)) and \
           GT[0].__ne__((0,1)) and GT[-1].__ne__((0,1)) and \
           GT[0].__ne__(GT[-1]):
        bcf_out.write(rec)

相关文章

  • 使用pysam操作VCF/BCF文件

    使用pysam操作VCF/BCF文件 读取和写出 VariantFile函数得到的是 pysam.libcbcf....

  • SnpHub搭建 | 数据处理中可能出现的问题

    1. VCF文件中出现了position顺序不对(未排好序) 使用bcftools sort进行排序 2. bcf...

  • 2021-06-30vcftools的相关参数和使用

    1.vcftools是一种可以对VCF文件和BCF文件进行格式转换及过滤的工具。 2.输入参数 –vcf 支持...

  • vcf文件与vcftools(二)

    vcftools是用来处理vcf和bcf文件的工具集,功能涵盖了过滤,数据格式转换,一些指标的统计计算,vcf文件...

  • vcftools

    vcftools是一种可以对VCF文件和BCF文件进行格式转换及过滤的工具,其中很多过滤及计算功能我们可以自己使用...

  • BCFtools常规使用

    BCFtools可用于处理VCF和BCF文件;具体可参考BCFtools说明文档[http://samtools....

  • 使用Pysam操作BAM文件

    Pysam操作BAM文件 Pysam包是一个处理基因组数据的python模块,它打包了htslib-1.3、sam...

  • ubuntu下pysam安装

    pysam是python下的处理bam、sam、bcf等序列比对文件格式的功能强大的包!linux下的安装过程: ...

  • vcftools安装及基础用法

    vcftools是一种可以对VCF文件和BCF文件进行格式转换及过滤的工具,功能非常强大,而且运算速度也很快。 1...

  • bcftools常用命令总结

    bcftools是一个用于检测突变和处理vcf(variant call format)、bcf(vcf对应的二进...

网友评论

    本文标题:使用pysam操作VCF/BCF文件

    本文链接:https://www.haomeiwen.com/subject/vaaelftx.html