基因组-genome survey(2)

作者: Zhigang_Han | 来源:发表于2020-05-24 21:42 被阅读0次

    在实际基因组概貌调查中,流式细胞术、染色体基数观察和基因组调查测序往往是同时进行的。
    在此,我们主要介绍下基因组调查测序与K-mer分析

    1、基因组调查测序

    Survey一般测序量为预估基因组大小的30-50X(二代测序)。
    通过survey我们可以知道如下信息:
    (1)基因组大小
    (2)基因组杂合度
    (3)重复序列比例
    (4)GC含量分布

    2、K-mer分析

    (1)什么是K-mer
    从一段连续序列中迭代地选取长度为K个碱基的序列,若每条序列的长度为L,那么可以得到(L-K+1)个K-mer。


    K-mer滑动示意图

    (2)K-mer估计基因组大小(K-mer有效深度大于20且K-mer种类数要大于基因组)
    在数据量一定的情况下,K-mer出现的频数是服从泊松分布(偏态分布,可以理解为最优解,想想卖馒头的例子)的,K-mer频率分布曲线的峰值作为其期望测序深度。
    基因组大小计算:G=Knum/Kdepth


    17-mer测序深度分布图
    Kdepth=1的情况认为是错误情况,计算错误率,可以用于修正基因组大小。
    Revised Gsize= Genome size X (1-Error Rate)
    以17-mer为例,假如一个碱基测错的话,其实就是放大17倍,因此二代数据做Kmer分析更加准确些。
    3、基因复杂度估计

    (1)基因组的杂合区段的K-mer深度较纯合区段降低50%
    例如,来自基因组的一个17-mer片段,如果没有杂合性,其覆盖度为2;如果有一个杂合位点,则这个片段将会产生2条序列,构成不同的17-mer。

    5-mer杂合示意图
    (2)杂合峰的意义
    如果目标基因组有一定的杂合性,会在K-mer深度分布曲线主峰位置(c)的1/2处(c/2)出现一个小峰。同时杂合率越高,该峰越明显。
    如果目标基因组是多倍体物种,特别是同源多倍体或相近物种杂交形成的多倍体,两个或多个两个或者多个亚基因族序列高度同源,这样就导致相应区域的K-mer数量成倍地增加,K-mer深度分布曲线就会在主峰深度位置1倍(4倍体)或者1倍和2倍(六倍体)出现峰值。
    同样地,如果重复序列偏高呢?答:会出现拖尾现象
    如果测序质量不高,低深度地K-mer数量大量增加
    理想的K-mer分析
    不理想的K-mer分析
    多倍化Kmer分析
    杂合率模拟
    Ref:
    植物基因组学-樊龙江著
    A host plant genome (Zizania latifolia) after a century-long endophyte infection
    Echinochloa crus-galli genome analysis provides insight into its adaptation and invasiveness as a weed
    基因课-张旭东

    相关文章

      网友评论

        本文标题:基因组-genome survey(2)

        本文链接:https://www.haomeiwen.com/subject/icyjahtx.html