美文网首页2022
生物数据格式 - pileup

生物数据格式 - pileup

作者: 半夜一更 | 来源:发表于2021-02-26 21:00 被阅读0次
    格式

    pileup格式描述了染色体上每个位置的碱基信息, 可以用来 SNP/indel calling, 也可以直接用眼睛看一下排列的情况。

    pileup文件格式如下: pileup格式.png

    pileup格式文件包括6列
    第一列:参考序列名;
    第二列:碱基位置;
    第三列:参考碱基;
    第四列:比对上的reads;
    第五列:比对情况;
    第六列:碱基质量,与fastq文件一样用ASCII码表示。
    其中第五列比对情况的表示方法较为复杂,用多种表达了每一个碱基的比对情况:

    符号 含义 符号 含义
    . 匹配正链 , 匹配负链
    ATCGN 正链上的不匹配 actin 负链上的不匹配
    ^ 该条read的第一个碱基 $ 该条read的最后一个碱基
    正则式:+[0-9][ATCGN] 在该位点后插入的碱基 正则式:+[0-9][atcgn] 在该位点后缺失的碱基
    * 模糊碱基
    获取

    Pileup 文件一般是由samtools从sorted bam 文件生成:

    samtools mpileup -f XX.fa -Q 15 -q 20 input.sorted.bam -o output.pileup

    相关文章

      网友评论

        本文标题:生物数据格式 - pileup

        本文链接:https://www.haomeiwen.com/subject/jpuufltx.html