基因组分析 K-mer 第5回数学原理

作者: Jason数据分析生信教室 | 来源:发表于2021-06-10 22:31 被阅读0次

基因组分析 K-mer 第4回 Coverage对长度估计的影响
基因组分析 K-mer 第5回数学原理
「基因组survey」使用GenomeScope进行基因组分析
KmerGenie kmer
kmergenie报错
基因组分析 K-mer 第1回理解K-mer和Coverage
GATK分析
基因组分析 K-mer 第0回随机生成fasta文件
基因组组装----k-mer
全基因组分析实践（参考：碱基矿工）

前几回通过动手操作大概了解了K-mer是怎么一回事了，这一回稍微深入一下，透过现象看本质，看一下K-mer背后的数学原理。耐心看完的话其实也不需要什么讲解，应该大概都能看懂的。

5.1. 基本参数

基因组大小：G

Read读长：L

总Read条数：n_r

5.2 碱基深度分布

单条Read测序覆盖到某一个碱基的概率：L/G

因为L/G很小，n_r很大，每个碱基覆盖深度服从泊松分布。

则每个碱基的覆盖深度的期望为：d_n=(L/G) x n_r

5.3 K-mer深度分布

假设基因组对K是unique的，可以得到G个不同的K-mer。

基因长度和K-mer种类等同

单条Read测序覆盖某个K-mer的概率：(L-K+1)/G

L-K+1相当于单条read产生的K-mer个数

同样因为(L-K+1)/G很小，n_r很大，每个K-mer的覆盖深度服从泊松分布。

则每个K-mer的覆盖深度的期望为：d_k=((L-K+1)/G) x n_r

5.4. 通过K-mer分布估计基因组大小

可知总K-mer个数：n_k=(L-K+1) x n_r

通过统计K-mer分布可知K-mer深度期望：d_k=((L-K+1)/G) x n_r

则基因组大小：G=n_k/d_k

5.5 碱基深度分布与K-mer深度分布的关系

d_n/d_k=L/(L-K+1)

网友评论

生信学习

本文标题：基因组分析 K-mer 第5回数学原理

本文链接：https://www.haomeiwen.com/subject/rwvdeltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

基因组分析 K-mer 第5回数学原理

5.1. 基本参数

5.2 碱基深度分布

5.3 K-mer深度分布

5.4. 通过K-mer分布估计基因组大小

5.5 碱基深度分布与K-mer深度分布的关系

相关文章

基因组分析 K-mer 第4回 Coverage对长度估计的影响

基因组分析 K-mer 第5回数学原理

「基因组survey」使用GenomeScope进行基因组分析

KmerGenie kmer

kmergenie报错

基因组分析 K-mer 第1回理解K-mer和Coverage

GATK分析

基因组分析 K-mer 第0回随机生成fasta文件

基因组组装----k-mer

全基因组分析实践（参考：碱基矿工）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

生信学习

基因组分析 K-mer 第5回 数学原理

5.1. 基本参数

5.2 碱基深度分布

5.3 K-mer深度分布

5.4. 通过K-mer分布估计基因组大小

5.5 碱基深度分布与K-mer深度分布的关系

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

基因组分析 K-mer 第5回数学原理