使用kmer来评估基因组特征。

作者: Zhigang_Han | 来源:发表于2020-01-15 13:00 被阅读0次
    1、基本定义

    k-mer:在reads上,从第一个碱基开始,一个碱基一个碱基地移动,截取长度为k的DNA序列,称为k-mer。


    image.png
    2、重复序列

    在基因组中,出现两次或以上的序列。


    image.png
    3、杂合序列

    在多倍体中(包含二倍体),同源染色体中的区域产生突变造成的序列。


    image.png
    4、K-mer分析
    image.png

    原始数据中的k-mer分布,可以通过观察和计算,推测出基因组的特征(基因组大小,重复率和杂合率)。

    5、基本思路

    排除测序错误的干扰:
    测序错误会产生错误的碱基,从而产生基因组中不存在的k-mer,它们在k-mer分布中属于低频k-mer, 我们把拐点前的低频k-mer当作错误k-mer去除掉,则可排除测序错误的干扰。
    基因组大小:
    我们把每个k-mer当作基因组中的一个碱基,通过观察k-mer分布,我们可以知道k-mer的总数(T,所有的碱基数量), k-mer峰所在的位置(μ,这个峰值就是平均k-mer出现的频数,也就是平均每个碱基出现的次数),而基因组大小:

    image.png
    重复序列:
    理论上单拷贝序列的k-mer,出现在1.6倍主峰以后的概率非常低,所以我们取峰值的1.6倍后的k-mer为重复k-mer,从而得到重复k-mer的总数( Tr ,相当于重复序列的碱基数),从而我们可以算出重复序列的长度:
    image.png
    基因组中的单拷贝序列长度U=G-R (3)
    ???杂合率计算:
    image.png
    链接地址:https://zhuanlan.zhihu.com/p/36408901

    相关文章

      网友评论

        本文标题:使用kmer来评估基因组特征。

        本文链接:https://www.haomeiwen.com/subject/fkltzctx.html