美文网首页
sam/bam文件详解

sam/bam文件详解

作者: GenomeStudy | 来源:发表于2023-06-28 09:23 被阅读0次

介绍
sam 文件是Sequence Alignment/Map Format的简写,产生于比对之后的数据输出,记录了比对的具体情况。是我们在生物信息学习和操作过程中经常遇到的文件。

但是sam文件很大还需要借助工具才能查看里面的内容,而且里面的内容也很复杂。

samtools view file.sam | less -S

sam文件内容详解


@HD VN:1.6 SO:coordinate

@SQ    SN:ref  LN:1000

@PG    ID:minimap2    PN:minimap2    VN:2.17-r941-dirty

read1  0      ref    10      60      5S5M    =      100    95      TTAGG  IIIII  NM:i:0

read2  0      ref    20      60      10M    =      100    80      TAGCT  IIIII  NM:i:1

解析


SAM 文件由多行组成,每一行代表一个比对结果。每行中的列用制表符(\t)分隔。


    @HD: 文件头信息,描述文件的版本和排序顺序。

    @SQ: 参考序列信息,包括序列名称和长度。

    @PG: 比对工具的相关信息。
每行的其他字段表示一个比对结果:

    read1,read2: 读取序列的名称。

    0: FLAG 字段,表示比对的一些属性,如是否匹配、是否为反向互补等。

    ref: 参考序列的名称。

    10,20: 比对结果在参考序列上的起始位置。

    60: 比对结果的质量得分,表示比对的可信度或准确性。

    5S5M,10M: 比对的 CIGAR 字符串,描述比对的操作和长度。这里的 "10M" 表示在比对中存在一个长度为 10 的匹配段。

    =: 表示比对到同一条参考序列。

    100,95,80: 比对结果在参考序列上的终止位置。

    TTAGG,TAGCT: 比对到参考序列的序列。

    IIIII: 比对序列的质量值。

    NM:i:0,NM:i:1: 比对结果的编辑距离,表示与参考序列不匹配的碱基数量。
每一列代表不同的意思:
    1.QNAME:读取序列的名称。
    2.FLAG:表示比对的标志位,用于指示比对的属性和状态。
    3.RNAME:比对到的参考序列的名称。
    4.POS:比对在参考序列上的起始位置。
    5.MAPQ:比对质量得分,表示比对的可信度。
    6.CIGAR:比对的 CIGAR 字符串,描述比对的操作序列。
    7.RNEXT:下一个比对的参考序列名称。
    8.PNEXT:下一个比对的位置。
    9.TLEN:比对序列的长度。
    10.SEQ:比对的序列。
    11.QUAL:序列的质量值。

相关文章

网友评论

      本文标题:sam/bam文件详解

      本文链接:https://www.haomeiwen.com/subject/glgwydtx.html