sam/bam文件详解

作者: GenomeStudy | 来源:发表于2023-06-28 09:23 被阅读0次

samtools软件的使用
文章复现-全外显子数据分析学习7-bam文件载入igv可视化
常见格式——bam
转录组分析3——认识SAM文件和BAM文件
linux-P14-sam和bam格式文件的shell小练习
sam和bam格式文件的shell小练习-答案
Sam/Bam文件格式详解
sam/bam文件
BAM/SAM文件格式的一些小知识
SAMtools——bam文件排序

介绍
sam 文件是Sequence Alignment/Map Format的简写，产生于比对之后的数据输出，记录了比对的具体情况。是我们在生物信息学习和操作过程中经常遇到的文件。

但是sam文件很大还需要借助工具才能查看里面的内容，而且里面的内容也很复杂。

samtools view file.sam | less -S

sam文件内容详解


@HD VN:1.6 SO:coordinate

@SQ    SN:ref  LN:1000

@PG    ID:minimap2    PN:minimap2    VN:2.17-r941-dirty

read1  0      ref    10      60      5S5M    =      100    95      TTAGG  IIIII  NM:i:0

read2  0      ref    20      60      10M    =      100    80      TAGCT  IIIII  NM:i:1

解析


SAM 文件由多行组成，每一行代表一个比对结果。每行中的列用制表符（\t）分隔。


    @HD: 文件头信息，描述文件的版本和排序顺序。

    @SQ: 参考序列信息，包括序列名称和长度。

    @PG: 比对工具的相关信息。

每行的其他字段表示一个比对结果：

    read1,read2: 读取序列的名称。

    0: FLAG 字段，表示比对的一些属性，如是否匹配、是否为反向互补等。

    ref: 参考序列的名称。

    10,20: 比对结果在参考序列上的起始位置。

    60: 比对结果的质量得分，表示比对的可信度或准确性。

    5S5M,10M: 比对的 CIGAR 字符串，描述比对的操作和长度。这里的 "10M" 表示在比对中存在一个长度为 10 的匹配段。

    =: 表示比对到同一条参考序列。

    100,95,80: 比对结果在参考序列上的终止位置。

    TTAGG,TAGCT: 比对到参考序列的序列。

    IIIII: 比对序列的质量值。

    NM:i:0,NM:i:1: 比对结果的编辑距离，表示与参考序列不匹配的碱基数量。

每一列代表不同的意思：
    1.QNAME：读取序列的名称。
    2.FLAG：表示比对的标志位，用于指示比对的属性和状态。
    3.RNAME：比对到的参考序列的名称。
    4.POS：比对在参考序列上的起始位置。
    5.MAPQ：比对质量得分，表示比对的可信度。
    6.CIGAR：比对的 CIGAR 字符串，描述比对的操作序列。
    7.RNEXT：下一个比对的参考序列名称。
    8.PNEXT：下一个比对的位置。
    9.TLEN：比对序列的长度。
    10.SEQ：比对的序列。
    11.QUAL：序列的质量值。