美文网首页
Pileup Format

Pileup Format

作者: JeremyL | 来源:发表于2019-01-17 21:47 被阅读23次

    Pileup 格式最早是Sanger研究所的Tony Cox 和 Zemin Ning开始使用的;最开始,它用于展示染色体各个位置碱基信息。

    现在一般也用于测序数据比对结果的可视化。

    SAMtools Pileup 格式如下:

    seq1 272 T 24  ,.$.....,,.,.,...,,,.,..^+. <<<+;<<<<<<<<<<<=<;<;7<&
    seq1 273 T 23  ,.....,,.,.,...,,,.,..A <<<;<<<<<<<<<3<=<<<;<<+
    seq1 274 T 23  ,.$....,,.,.,...,,,.,...    7<7;<;<<<<<<<<<=<;<;<<6
    seq1 275 A 23  ,$....,,.,.,...,,,.,...^l.  <+;9*<<<<<<<<<=<<:;<<<<
    seq1 276 G 22  ...T,,.,.,...,,,.,....  33;+<<7=7<<7<&<<1;<<6<
    seq1 277 T 22  ....,,.,.,.C.,,,.,..G.  +7<;<<<<<<<&<=<<:;<<&<
    seq1 278 G 23  ....,,.,.,...,,,.,....^k.   %38*<<;<7<<7<=<<<;<<<<<
    seq1 279 C 23  A..T,,.,.,...,,,.,..... ;75&<<<<<<<<<=<<<9<<:<<
    

    格式每一列对应的是:
    chromosome:参考序列号
    1-based coordinate:参考序列上碱基位置
    reference base:参考碱基
    the number of reads covering the site:覆盖该位点的reads数目
    read bases:匹配到参考位点的reads碱基
    base qualities:reads碱基质量

    reads碱基列:

    • 点(.)表示比对到正链,逗号(,)表示比对到反义链;
    • 在表示错配时,``ACGTN' 表示reads与reference 正链错配,·acgtn`表示reads与reference 反义链错配;
    • +[0-9]+[ACGTNacgtn]+表示在对应参考碱基位置和下一个碱基位置之间有插入。整数表示插入片段大小,后面插入的碱基。
    seq2 156 A 11  .$......+2AG.+2AG.+2AGGG    <975;:<<<<<
    

    ``-[0-9]+[ACGTNacgtn]+`'表示在对应参考碱基位置和下一个碱基位置之间有缺失片段。整数表示插入片段大小,后面缺失的碱基。

    seq3 200 A 20 ,,,,,..,.-4CACC.-4CACC....,.,,.^~. ==<<<<<<<<<<<::<;2<<
    

    samtools mpileup

    bam文件转换格式为pileup

    samtools mpileup -f Reference.fa test.sort.bam -o test.pileup
    

    相关文章

      网友评论

          本文标题:Pileup Format

          本文链接:https://www.haomeiwen.com/subject/ilmwdqtx.html