美文网首页
SAM文件格式介绍

SAM文件格式介绍

作者: 我是爱哭虫小鱼 | 来源:发表于2020-03-02 10:59 被阅读0次

转载:https://biozx.top/sam.html

image

SAM 是sequence alignment format [http://samtools.github.io/hts-specs/SAMv1.pdf]的缩写,BAM文件是SAM的二进制文件。当测序生成的fastq文件比对到参考基因组后就会生成SAM文件或者BAM文件。大部分的数据分析都是始于SAM文件。

SAM 文件的结构

SAM格式文件包括头部注释部分比对结果部分,头部分为''可选部分''。头部分位于比对部分之前,以“@”开头。比对部分有11列是固定的,其他多列可选。看如下例子:

 @HD     VN:1.0  SO:unsorted     #VN版本,比对有无sorted

@SQ     SN:17   LN:83257441    ##SQ:参考序列目录。SN:参考序列名字。LN:参考序列长度

 @PG     ID:hisat2       PN:hisat2       VN:2.1.0        CL:/home/bio/bin/hisat2/hisat2-align-s --wrapper basic-0 -c GTGCTGAACGACGAGGACTGCCGGGAGTTCCCCTGGCAC    ##PG:program 。 ID:program record identifier 。 VN:程序版本。CL:command line

 0       16      17      805144  60      39M     *       0       0       GTGCCAGGGGAACTCCCGGCAGTCCTCGTCGTTCAGCAC IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII AS:i:0  Z:39    YT:Z:UU NH:i:1
头部注释部分
  • @HD:说明VN的版本以及比对有无排列顺序,这个例子没有排序。

  • @SQ:参考序列目录。SN:参考序列名字。LN:参考序列长度。

  • @PG:使用的比对程序名,这个例子是hisat2

比对结果部分

比对结果部分每行标示一个read与参考序列的比对信息,前11列为必须字段,顺序固定。其余列是可选字段。前11列如下解释:

  • 第一列Query Name:read的名称,即片段的编号。

  • 第二列FLAG:如果不是以下数字中的一个,则是一下数据某几个的和

    • 1:标示对应的二进制为01,标示read有多个测序数据,一般理解为有双端测序数据,另一条没有过滤掉;

    • 2:二进制为10,标示read的多个片段都有比对结果,双端的read都比对上了;

    • 4:表示这条read没有比对上;

    • 8:标示下一条read没有比对上;

    • 16:表示这条read的反向比对上了;

    • 32:表示这条read的下一条的反向没有比对上;

    • 64:表示样本中第一个片段;

    • 128:表示样本中最后一条片段;

    • 256:表示第二次比对;

    • 512:表示比对的质量不合格;

    • 1204:表示read是pcr或光学副本产生的;

    • 2048:表示辅助比对结果;


>Bit Description

 1 0x1   template having multiple segments in sequencing

 2 0x2   each segment properly aligned according to the aligner

 4 0x4   segment unmapped

 8 0x8   next segment in the template unmapped

 16 0x10   SEQ being reverse complemented

 32 0x20   SEQ of the next segment in the template being reverse complemented

 64 0x40   the first segment in the template

 128 0x80   the last segment in the template

 256 0x100   secondary alignment

 512 0x200 not passing filters, such as platform/vendor quality controls

 1024 0x400 PCR or optical duplicate

 2048 0x800 supplementary alignment

  • 第三列Reference Name:参考序列的名称,或者比对到参考序列上的染色体号。比对不上为*

  • 第四列Position:比对上的位置,从1开始计数(顺着链的方向从1数起,哪个位置开始匹配)。没有比对上为0;

  • 第五列Mapping Quality:比对的质量分数,越高表示比对的越准确。

  • 第六列CIGAR:表示比对的结果。

    * M:表示match或mismatch
    
    * I:表示插入
    
    * D:表示删除
    
    * N:表示skipped,跳过这段区域
    
    * S:表示被剪切的序列存在于序列中
    
    * H:表示被剪切的序列不存在于序列中
    
    * P:表示padding(填补)
    
    * =:表示match
    
    * X:表示mismatch(错配,位置是一一对应的)
    
  • 第七列RNEXT:表示下一个片段比对上的参考序列的编号,比对不上用’*‘,该片段和下一个片段比对上同一个参考片段,用’=‘;

  • 第八列PNEXT:表示下一个片段比对上的位置,如果不可用,此处为0;

  • 第九列TLEN:表示Template的长度。如果第八列大于第四列,则为正数,否则负数。

  • 第十列SEQ:表示序列片段的序列信息,(注意CIGAR中M/I/S/=/X对应数字的和要等于序列长度),表示read的碱基序列,如果是比对到互补链上则是反转互补序列。

  • 第十一列QUAL:表示read的质量,用ASCII编码表示。

相关文章

  • SAM文件格式介绍

    SAM 是sequence alignment format [http://samtools.github.io...

  • SAM文件格式

    第一列 QNAME:查询的read,不论是否匹配上基因组第二列 FLAG:bitwise FLAG第三列 RBAN...

  • NGS常用文件格式详解

    NGS文件格式 FASTQ FASTA SAM格式 FLAG标识 BAM格式

  • samtools 工具处理SAM文件

    SAM 是用来存储核苷酸序列比对信息的文件格式。SAM Tools 工具包提供各种工具处理SAM文件。包括功能:s...

  • sam文件格式说明

    bowtie2是当前最流行的短序列比对软,SAM(SequenceAlignment/Map)格式是一种通用的比对...

  • 理解SAM文件格式以及过滤sam文件

    RNA-seq或者ChIP-seq等等测序的上游分析流程里的比对步骤相信大家都知道,我之前也只是按照各种教程去走流...

  • Sam/Bam文件格式详解

    作者:麦茬道审稿:童蒙编辑:amethyst 随着生物信息数据的爆发式增长,存储生物信息的文件格式也多样化起来,不...

  • MAPQ

    sam文件格式的第五列是MAPQ值: 表示为mapping的质量值,mapping Quality, It equ...

  • SAMtools: SAM格式的处理利器

    SAM及其相关工具 SAM格式介绍 SAM全称是Sequence Alignment/Map, 是目前最常用的存放...

  • SAM, Sequence Alignment/Map form

    前言 本文介绍了SAM 格式 字段说明, 以及相关术语解释详细介绍参见SAM标准说明http://samtools...

网友评论

      本文标题:SAM文件格式介绍

      本文链接:https://www.haomeiwen.com/subject/wlkpkhtx.html