美文网首页生信学习
基因组分析 K-mer 第5回 数学原理

基因组分析 K-mer 第5回 数学原理

作者: Jason数据分析生信教室 | 来源:发表于2021-06-10 22:31 被阅读0次

    前几回通过动手操作大概了解了K-mer是怎么一回事了,这一回稍微深入一下,透过现象看本质,看一下K-mer背后的数学原理。耐心看完的话其实也不需要什么讲解,应该大概都能看懂的。

    5.1. 基本参数

    基因组大小:G

    Read读长:L

    总Read条数:n_r

    5.2 碱基深度分布

    单条Read测序覆盖到某一个碱基的概率:L/G

    因为L/G很小,n_r很大,每个碱基覆盖深度服从泊松分布。

    则每个碱基的覆盖深度的期望为:d_n=(L/G) x n_r

    5.3 K-mer深度分布

    假设基因组对K是unique的,可以得到G个不同的K-mer。

    基因长度和K-mer种类等同

    单条Read测序覆盖某个K-mer的概率:(L-K+1)/G

    L-K+1相当于单条read产生的K-mer个数

    同样因为(L-K+1)/G很小,n_r很大,每个K-mer的覆盖深度服从泊松分布。

    则每个K-mer的覆盖深度的期望为:d_k=((L-K+1)/G) x n_r

    5.4. 通过K-mer分布估计基因组大小

    可知总K-mer个数:n_k=(L-K+1) x n_r

    通过统计K-mer分布可知K-mer深度期望:d_k=((L-K+1)/G) x n_r

    则基因组大小:G=n_k/d_k

    5.5 碱基深度分布与K-mer深度分布的关系

    d_n/d_k=L/(L-K+1)

    相关文章

      网友评论

        本文标题:基因组分析 K-mer 第5回 数学原理

        本文链接:https://www.haomeiwen.com/subject/rwvdeltx.html