美文网首页变异检测
bwa比对结果(bam/sam)中的cigar信息

bwa比对结果(bam/sam)中的cigar信息

作者: xiaoji_hb | 来源:发表于2020-08-12 10:52 被阅读0次

    bwa全名Burrow-Wheeler Aligner,是一款将短测序序列比对到参考基因组的软件。主要包括三种算法,分别是BWA-backtrack, BWA-SW和BWA-MEM,其中BWA-backtrack针对的是illumina 100bp或更短的reads,后两者针对的reads片段较长,跨度范围70bp-1Mb(大片段比对效率很低,可以考虑使用目前三代数据的比对软件)。相比于BWA-SW,BWA-MEM在运行速度及准确度上都有明显的提升,是目前使用最多的比对方法。具体使用方法参照之前的文章,BWA参考基因组比对-序列比对。

    今天为大家介绍的是比对结果sam/bam文件CIGAR中的信息。

    数据中CIGAR信息

    cigar中包含的是比对结果信息,表明了一条reads所有碱基的比对情况,在sam/bam文件的第六列,示例信息如下。

    @HD VN:1.6 SO:coordinate
    @SQ SN:ref LN:45
    r001    99  ref 7   30  8M2I4M1D3M  =   37  39  TTAGATAAAGGATACTG   *
    r002    0   ref 9   30  3S6M1P1I4M  *   0   0   AAAAGATAAGGATA  *
    r003    0   ref 9   30  5S6M    *   0   0   GCCTAAGCTAA *   SA:Z:ref,29,-,6H5M,17,0;
    r004    0   ref 16  30  6M14N5M *   0   0   ATAGCTTCAGC *
    r003    2064    ref 29  17  6H5M    *   0   0   TAGGC   *   SA:Z:ref,9,+,5S6M,30,1;
    r001    147 ref 37  30  9M  =   7   -39 CAGCGGCAT   *   NM:i:1
    

    CIGAR比对类型

    对于cigar信息,sam文件中共定义了9种类型,见下表。

    bwa-samtools-bam/sam-cigar

    在实际的分析中,一般使用MIDNSHP七种,其中M表示MATCH,I表示INSERTION,D表示DELETION,N表示skipped bases on the reference,S表示SOFT CLIPING,H表示HARD CLIPING,P表示PADDING,以下是相关的示例信息及简要说明。

    samtools-cigar-example

    (a)最上面是参考基因组,下面给出了reads的比对信息,(b)bam文件中输出的reads比对结果。M、I和D三种类型很简单,都是相对于基因组而言的,对应匹配、插入和缺失;S和H两种类型稍后详细说明;对于P的理解可以看r001和r002两条reads的比对结果,r001插入了两个碱基AG,cigar信息为2I,r002插入了一个G碱基,对应cigar信息为1P1I,这里的P其实是r002相对于r001而言的补位信息,即r001中插入的A碱基在r002中是缺失的,进行补齐;N表示忽略基因组上的序列。

    Clipping说明

    在Smith-Waterman比对时,短序列的两端可能会出现不能匹配的问题,此时比对结果就会指定为cliping。不同的clipping结果会根据实际的比对情况进行细分,其中S对应soft,h对应hard。

    clipping比对结果:

    REF:    AGCTAGCATCGTGTCGCCCGTCTAGCATACGCATGATCGACTGTCAGCTAGTCAGACTAGTCGATCGATGTG
    READ:          gggGTGTAACC-GACTAGgggg
    

    上述示例是某一条read的比对结果,其中大写字母表示匹配(非完全匹配,部分碱基是错配的),-表示缺失,小写字母表示末端为匹配的序列,这部分就是clipping序列。若该read只比对到基因组的这个位置,cigar信息为3S8M1D6M4S,若该序列比对到基因组多个位置,比对的cigar信息为3H8M1D6M4H。S和H除了比对位置的区别以外,在输出数据中的序列也不同,标注为S的序列会显示在bam文件中,标注H的序列则会删除。比如3S8M1D6M4S在bam中输出序列为gggGTGTAACCGACTAGgggg,而3H8M1D6M4H输出的序列为GTGTAACCGACTAG

    参考信息

    [1] file format:http://samtools.github.io/hts-specs/
    [2] The Sequence Alignment/Map format and SAMtools (doi: 10.1093/bioinformatics/btp352)
    [3] SAM information:https://davetang.org/wiki/tiki-index.php?page=SAM

    相关文章

      网友评论

        本文标题:bwa比对结果(bam/sam)中的cigar信息

        本文链接:https://www.haomeiwen.com/subject/giqpdktx.html