#jellyfish(注意:k值在17-25最可靠)
随着Kmer值增大,峰值会左移,再逐渐没有峰值。
Kmer评估法简介
假如有一批二代或三代基因组测序数据,计算基因组覆盖深度:
base_coverage_depth= Total_base_num/genome_size=(read_num * read_length)/genome_size
同样,Kmer覆盖深度,即Kmer频率曲线中的峰值,可计算:
Kmer_coverage_depth= Total_kmer_num/genome_size = read_num * (read_length - kmer_size + 1)/genome_size
基因组覆盖深度和Kmer深度的关系:
Kmer_coverage_depth= base_coverage_depth * (read_length - Kmer_size + 1)/read_length
如果基因组深度为50X,read_length = 100,Kmer_size = 21,则Kmer深度:
Kmer_coverage_depth= 50 * (100 -21 + 1)/100,刚好是Kmer分布图中的peak。
比如长度为L的基因组,kmer大小为k,则k的所有可能个数为:(L -K)+1,通过评估kmer大小和数量分布就可以估算出物种大小。
网站有说明:Genome Size Estimation Tutorial | Computational Biology Core
https://bioinformatics.uconn.edu/genome-size-estimation-tutorial/#
自行计算的基因组大小是2G
网友评论