Pileup 格式最早是Sanger研究所的Tony Cox 和 Zemin Ning开始使用的;最开始,它用于展示染色体各个位置碱基信息。
现在一般也用于测序数据比对结果的可视化。
SAMtools Pileup 格式如下:
seq1 272 T 24 ,.$.....,,.,.,...,,,.,..^+. <<<+;<<<<<<<<<<<=<;<;7<&
seq1 273 T 23 ,.....,,.,.,...,,,.,..A <<<;<<<<<<<<<3<=<<<;<<+
seq1 274 T 23 ,.$....,,.,.,...,,,.,... 7<7;<;<<<<<<<<<=<;<;<<6
seq1 275 A 23 ,$....,,.,.,...,,,.,...^l. <+;9*<<<<<<<<<=<<:;<<<<
seq1 276 G 22 ...T,,.,.,...,,,.,.... 33;+<<7=7<<7<&<<1;<<6<
seq1 277 T 22 ....,,.,.,.C.,,,.,..G. +7<;<<<<<<<&<=<<:;<<&<
seq1 278 G 23 ....,,.,.,...,,,.,....^k. %38*<<;<7<<7<=<<<;<<<<<
seq1 279 C 23 A..T,,.,.,...,,,.,..... ;75&<<<<<<<<<=<<<9<<:<<
格式每一列对应的是:
chromosome:参考序列号
1-based coordinate:参考序列上碱基位置
reference base:参考碱基
the number of reads covering the site:覆盖该位点的reads数目
read bases:匹配到参考位点的reads碱基
base qualities:reads碱基质量
reads碱基列:
- 点(.)表示比对到正链,逗号(,)表示比对到反义链;
- 在表示错配时,``ACGTN
' 表示reads与reference 正链错配,
·acgtn`表示reads与reference 反义链错配; -
+[0-9]+[ACGTNacgtn]+
表示在对应参考碱基位置和下一个碱基位置之间有插入。整数表示插入片段大小,后面插入的碱基。
seq2 156 A 11 .$......+2AG.+2AG.+2AGGG <975;:<<<<<
``-[0-9]+[ACGTNacgtn]+`'表示在对应参考碱基位置和下一个碱基位置之间有缺失片段。整数表示插入片段大小,后面缺失的碱基。
seq3 200 A 20 ,,,,,..,.-4CACC.-4CACC....,.,,.^~. ==<<<<<<<<<<<::<;2<<
samtools mpileup
bam文件转换格式为pileup
samtools mpileup -f Reference.fa test.sort.bam -o test.pileup
网友评论