美文网首页
基因组常见文件格式

基因组常见文件格式

作者: 生物信息与育种 | 来源:发表于2020-11-26 14:53 被阅读0次

    [toc]

    vcf文件(4.2)

    格式说明

    官方文档:
    https://samtools.github.io/hts-specs/VCFv4.2.pdf
    仍然不太适应看长篇的英文文档,看了后面忘了前面,看多了头晕。

    中文参考:
    VCF (Variant Call Format)格式详解

    但是官方文档是解释的最权威、最全面的,英文水平要培养起来,不要畏惧,养成读官方文档习惯,提炼要点。仅看网上教程是不可能面面俱到的,何况大部分教程都是没有经过实验,仅仅复制粘贴别人的。很多细节只有自己实践时发现,举个例子:

    原始vcf文件如下:


    image.png

    包含SNP和Indel,应用时需要将SNP/Indel提取出来:

    # call snp
    vcftools --vcf test.vcf --remove-indels --out test.snps --recode --recode-INFO-all
    # or
    java -jar GenomeAnalysisTK.jar \
        -T SelectVariants \
        -R reference.fasta \
        -V test.vcf   \
        -selectType SNP \
        -o test.snps.vcf
    
    # call indel
    vcftools --vcf test.vcf --keep-only-indels --out test.indels --recode --recode-INFO-all
    # or
    java -jar GenomeAnalysisTK.jar \
        -T SelectVariants \
        -R reference.fasta \
        -V test.vcf  \
        -selectType INDEL \
        -o test.indels.vcf
    

    snp.vcf文件中还有一些不常见的东西:

    image.png
    image.png image.png

    我们如果要进行文件格式转换,这里就需要注意了。一般只有一个位点,这里却有多个位点,后面的编码除了0,1组合,还有2。此外,0/10|1又有什么区别?比如你想把vcf文件转化为hapmap格式,尤其是自己写脚本时,你可以看看tassel之类的软件是怎么处理的。

    关于基因型定相和非定相,贴几个biostars上的问题:


    待补充

    Bam/sam格式

    GFF/GTF格式

    Hapmap格式

    Plink格式

    GT格式

    相关文章

      网友评论

          本文标题:基因组常见文件格式

          本文链接:https://www.haomeiwen.com/subject/mogaiktx.html