美文网首页 生物信息学分析
SAM格式相关的术语和概念

SAM格式相关的术语和概念

作者: JeremyL | 来源:发表于2022-02-09 16:15 被阅读0次

    SAM格式相关的术语和概念

    1. SAM格式是什么?

    SAM是Sequence Alignment/Map format的缩写。SAM格式是TAB分割的文本文件,包含一个非必须的注释信息部分和必须的比对信息部分。注释信息位于比对信息前,并且一般以@开始。

    2. SAM格式相关的术语和概念

    Template:DNA/RNA序列,其部分由测序仪测得或从原始数据组装得到。

    Segment:一段连续序列或子序列

    Read:从测序仪得到的原始序列。一个read可以由多个Segment组成。

    Linear alignment:单个read比对到单个参考序列,其中可能包括插入,删除、跳过和剪切,但不能有方向改变,即比对上的序列一部分在正义链一部分在反义链。SAM文件中一行可以记录一个线性比对事件。

    Chimeric alignment:无法被Linear alignment表示的比对事件,一个Chimeric alignment一般被表示为多个没有大交集的linear alignments的集合。在嵌合比对中,有一个线性比对被视为“representative” alignment,其余的被视为supplementary alignment,这个可以通过flag列识别。同一个chimeric alignment的linear alignments有一样的query name(QNAME)和flag(0x40 和0x80)。关于哪个linear alignments被视为supplementary alignment是随机的。

    Read alignment:read的一次完整比对,可以是一次线性比对或嵌合比对。

    Multiple mapping:单个read比对到多个位置,其中一个被是为primary alignment,其他的被视为secondary alignment,可以通过0x40 和 0x80 flags识别。primary alignment一般被认为是最好比对。

    1-based coordinate system:位置从1开始;The SAM, VCF, GFF and Wiggle formats are using the 1-based coordinate system.

    0-based coordinate system:位置从0开始; The BAM, BCFv2, BED, and PSL formats are using the 0-based coordinate system.

    Phred scale:-10\log_10(p)

    Notes:

    • 嵌合比对主要是由结构变异、基因融合、错误组装、测序或实验方法引起的。嵌合比对一般出现在比较长的read;对于一个嵌合比对,其包含的线性比大部分是重叠; 嵌合比对的每一个线性比对一般具有比较好的比对质量,用于call SNP/INDEL。

    • multiple mappings主要是由于重复造成的,在长的read比对时发生较少。一个read比对到多个地方,这些比对结果大部分是有重复的。除了最好的比对外,其他的比对质量一般都<Q3,一般不用于call SNP/INDEL。

    3. SAM格式比对信息部分

    比对信息部分,每行表示一个segment的线性比对结果,包含TAB1键分割的至少11个元素;

    The alignment section
    • FLAG


      FLAG
    • CIGAR


      CIGAR
    1. “Consumes query” 和“consumes reference”: CIGAR中查询序列和参考序列分别使用的碱基数目
    2. H 只能出现在CIGAR的开始或最后
    3. S的两边必为H,或者位于CIGAR的末端;
    4. 对于mRNA到基因组的比对,N表示内含子。对于其他类型的比对,N的解释未被定义;
    5. M/I/S/=/X 长度和应该等于SEQ长度。

    参考

    SAMv1

    相关文章

      网友评论

        本文标题:SAM格式相关的术语和概念

        本文链接:https://www.haomeiwen.com/subject/cggwkrtx.html