美文网首页
细说alignment

细说alignment

作者: 球果假水晶蓝 | 来源:发表于2024-03-29 01:08 被阅读0次

    下图表示一对PE read,和三条SE read的比对情况


    image.png

    Linear alignment

    Linear alignment: 线性比对表示一个read比对到单个参考序列,可以存在插入,缺失,跳过(skip),剪切(clip), 但是不存在方向改变的情况(比如说一部分和正链比对,另一个位置则是和负链比对)。最简单的判断的方式就是,一个linear alignment只用一行记录,比如r003和r004。
    multiple mapping: 假如有一个短序列,他在比对的时候看到哪哪都有他的影子,这种就是受重复区域影响比较大,所以read越长出现这种的可能性越低。一般指定首先匹配上的为最优匹配结果primary。其他的被视为secondary alignment,可以通过0x40 和 0x80 flags识别。primary alignment一般被认为是最好比对。

    Chimeric alignment

    Chimeric alignment: 嵌合比对,嵌合比对” 的形成是由于一条测序read比对到基因组上时分别比对到两个不同的区域,而这两个区域基本没有overlap。因此它在sam文件中需要占用多行记录显示。只有第一个记录被称作"representative",其他的都是"supplementary"【Chimeric reads are also called split reads】。比如r003第一个记录是后6个匹配,第二个记录则是反向序列的后5个匹配。如果发现嵌合比对,最好的比对top hit标记为soft clipping,其余的则标记为hard clipping。这里第一个记录比第二条记录截掉的碱基少,所以第一条记录是softclip。
    将其中的一条sam文件作为represent alignment(r003第一次比对信息),而另一条作为supplementary alignment (flag为2048,r003第二次比对信息)。

    补充:

    bwa mem的-M -Y参数:

    -M:mark shorter split hits as secondary。就是把supplemenary alignment 变为no primary(flag值256) 。下面是bwa mem -M的结果

    7bd852359601076f68e258ed3590eb59.png
    -Y:use soft clipping for supplementary alignments。把默认的supplementary alignmentshard clip变为soft clip。hard clip 不会显示不匹配的碱基串,soft clip会显示不匹配的碱基串。下面是bwa mem -Y的结果
    r003 第一个比对信息 不加Y (默认),结果6H5M TAGGC, 加上Y 结果6S5M ttagctTAGGC
    bam flag查询
    通过flag 我们可以推测比对信息
    1 : 代表这个序列采用的是PE双端测序
    2: 代表这个序列和参考序列完全匹配,没有插入缺失
    4: 代表这个序列没有mapping到参考序列上
    8: 代表这个序列的另一端序列没有比对到参考序列上,比如这条序列是R1,它对应的R2端序列没有比对到参考序列上
    16:代表这个序列比对到参考序列的负链上
    32 :代表这个序列对应的另一端序列比对到参考序列的负链上
    64 : 代表这个序列是R1端序列, read1;
    128 : 代表这个序列是R2端序列,read2;
    256: 代表这个序列不是主要的比对,一条序列可能比对到参考序列的多个位置,只有一个是首要的比对位置,其他都是次要的
    512: 代表这个序列在QC时失败了,被过滤不掉了(# 这个标签不常用)
    1024: 代表这个序列是PCR重复序列(#这个标签不常用)
    2048: 代表这个序列是补充的比对(#这个标签具体什么意思,没搞清楚,但是不常用)

    感谢 微信公众号 生信从入门到放弃 、简说基因、简书用户JeremyL

    相关文章

      网友评论

          本文标题:细说alignment

          本文链接:https://www.haomeiwen.com/subject/vvsptjtx.html