美文网首页试读ngs
bam/sam 数据格式(2018-05-29)

bam/sam 数据格式(2018-05-29)

作者: 简单点lili | 来源:发表于2018-05-29 10:41 被阅读0次

    转自:https://blog.csdn.net/niuhuihui_fei/article/details/73106998?locationNum=14&fps=1

    SAM和BAM是序列比对之后常用的输出格式

    比如tophat输出BAM格式,bowtie和bwa等都采用了SAM格式。

    BAM格式其实就是SAM格式的二进制格式,占用存储空间更小。

    samtools由中国学者开发,专门用于sam/bam格式文件的各种操作。

    1.bam文件读取

    samtools view xxx.bam

    samtools view xxx.bam |less

    2.bam和sam的区别与一致

    sam是带有比对信息的序列文件(即告诉你这个reads在染色体上的位置等),用于储存序列数据(SAM  format is a generic format for storing large nucleotide sequence alignments. )。

    BAM is the compressed binary version of the Sequence Alignment/Map (SAM) format. 生物信息中的二进制文件主要是为了节约空间,计算机机可读。可以用samtools工具实现sam和bam文件之间的转化。

    二者都是fastq文件经过序列比对或者mapping后输出的格式(其储存的信息都是一致的)

    3.资料来源:

    Samtools官网:http://samtools.sourceforge.net/

    UCSC 上对BAM Track Format介绍:genome.ucsc.edu/goldenPath/help/bam.html

    Samtools应用实例:https://wikis.utexas.edu/display/CoreNGSTools/SAM+format+and+samtools

    Samtools参考文献:The Sequence alignment/map (SAM) format and SAMtools

    对SAM每一列的详细解释: http://genome.sph.umich.edu/wiki/SAM

    SAM格式解释及specification介绍: http://davetang.org/wiki/tiki-index.php?page=SAM

    能利用或产生SAM/BAM的NGS软件:http://samtools.sourceforge.net/swlist.shtml

    4.格式(sam与bam格式是一致)

    SAM格式分为header section(头部分,注释信息,以@开头,可有可无)和alignment section(比对结果)两个部分。

    其中header section用不同的tag表示不同的信息,主要有@HD,说明符合标准的版本、对比序列的排列顺序;@SQ,参考序列说明;@RG,比对上的序列(read)说明;@PG,使用的程序说明;@CO,任意的说明信息。Tag以键值对的形式存在。

    alignment section 必须由11个字段组成 ,以tab分开。如果其内容没有获得,可以用*或者0代替。

    QNAME, FLAG, RNAME, POS, MAPQ, CIGAR, MRNM, MPOS, ISIZE, SEQ, QUAL

    相关文章

      网友评论

        本文标题:bam/sam 数据格式(2018-05-29)

        本文链接:https://www.haomeiwen.com/subject/rmuojftx.html