SAM格式具体信息

作者: 爱吃海椒的妹妹 | 来源:发表于2022-03-09 11:07 被阅读0次

    <meta charset="utf-8">

    SAM文件HEADER: SAM Format Header

    SAM文件每一列的信息:

    image image image

    FLAG信息:
    flag信息展示的是十进制的数字,我们需要将它转变成二进制,二进制每个数字都代表一些信息,1代表true,0代表flase.比如第二个信息显示PE(pair-end)是否比对到合适位置,这里显示1,则表示PE是比对到合适位置。


    FLAG.png

    关于第二条PE是否比对到合适位置有个补充说明:若PE两条比对到同一条染色体我们称之为properly aligned,若比对到不同染色体则不是properly aligned。这是因为PE原本就是由同一个片段两端测序而来,应该在同一条染色体上。

    SAM文件中CIGAR字符串详细记录了read比对到参考序列上的细节:

    标记 描述 Description Consumes query Consumes reference
    M 匹配(包含完全匹配和单碱基错配) alignment match (can be a sequence match or mismatch) yes yes
    I 序列插入(包含潜在Insertion变异) insertion to the reference yes no
    D 序列删除(包含潜在Deletion变异) deletion from the reference no yes
    N 跳过参考序列 skipped region from the reference no yes
    S 软跳过(soft clip),跳过read中的部分序列,不会改变read长度 soft clipping (clipped sequences present inSEQ) yes no
    H 硬跳过(hard clip),直接剪切掉read中部分序列,会改变read长度 hard clipping (clipped sequences NOT present inSEQ) no no
    P padding,类似N,跳过参考序列的部分区域 padding (silent deletion from padded reference) no no
    = 完全匹配 sequence match yes yes
    X 序列错配 sequence mismatch yes yes

    “Consumes query” and “consumes reference” indicate whether the CIGAR operation causes the alignment to step along the query sequence and the reference sequence respectively.


    2022-02-25 (26).png

    soft clip和hardclip的区别详见我收录的专题文章:基因组比对文件(SAM/BAM) Soft Clip 与 Hard Clip
    【转】基因组比对文件(SAM/BAM) Soft Clip 与 Hard Clip - 简书 (jianshu.com)

    BAM文件中除了必须的前11列信息之外,不同的BAM文件中后面记录metadata的列是不固定的,在不同的处理软件中输出时也会有所不同,meatdata含义:SAM (Sequence Alignment/Map) Format Alignment Tags (samformat.info)

    部分内容参考下面文章:
    作者:WuYankang
    链接:https://www.jianshu.com/p/12c81825c1f4

    相关文章

      网友评论

        本文标题:SAM格式具体信息

        本文链接:https://www.haomeiwen.com/subject/wbktdrtx.html