美文网首页基因组组装生信相关生物学知识
基因组组装中的kmer究竟是何方神圣

基因组组装中的kmer究竟是何方神圣

作者: 生信修炼手册 | 来源:发表于2018-09-01 19:22 被阅读58次

欢迎关注"生信修炼手册"

在使用基因组组装相关软件时,我们经常会听到kmer这个名词。kmer究竟是什么东西呢?

在组装时,由于机器读长的限制,直接采用overlap进行组装的算法效果并不好,为了提升组装效果,基于kmer的算法流行了起来。

kmer 是一段固定长度的序列,这个长度是自己定义的,也就是我们常说的kmer大小, 一个实际的例子如下

Read: AGATCGAGTG
3-mers: AGA GAT ATC TCG CGA GAG AGT GTG

这里定义kmer的长度为3,对于输入的序列来说,从第一个碱基开始,采用滑动窗口的形式(步长为1),依次提取3bp的序列,这些序列就是kmer。

示意图如下

kmer有哪些用途呢?

1. 连接序列

从上面的例子可以看出,来自同一段基因组序列的kmer之间是可以互相连接起来的,而且overlap的长度为 kmer的长度减1。

2. 评估基因组大小

对于长度为L的序列,最终得到的kmer的总数是可以计算到的, 公式如下

n = (L - K) + 1

通过测序的reads可以统计出kmer的总数,然后可以反推回去基因组的大小。一个实际的例子如下:

对于不同长度的基因组,利用kmer总数来评估基因组大小,基因组长度越长,错误率越低,对于1MB的基因组来说,错误率只有0.17%,已经是一个可以接收的误差范围了。

当然,利用上述公式直接反推是理论情况,在实际中,由于基因组杂合度,重复区域,测序深度不均一等特性,kmer的总数和基因组大小并不是线性关系,所以我们需要借助算法来校正这些因素的影响。

在后续文章中,会详细介绍各种利用kmer评估基因组大小的软件的用法。

扫描关注微信号,更多精彩内容等着你!

相关文章

  • kmer

    基因组组装中的kmer究竟是何方神圣jellyfish:快速计算kmer分布Gerbil:支持GPU加速的kmer...

  • 基因组组装中的kmer究竟是何方神圣

    欢迎关注"生信修炼手册"! 在使用基因组组装相关软件时,我们经常会听到kmer这个名词。kmer究竟是什么东西呢?...

  • Gerbil:支持GPU加速的kmer count工具

    欢迎关注"生信修炼手册"! 对于基因组组装而言,kmer count是最基础的分析内容之一,传统的kmer cou...

  • Abyss:基于布隆过滤器的基因组组装软件

    主流的NGS基因组组装软件都是先将序列划分成kmer, 然后基于de Bruijn Graph图论算法,得到组装好...

  • 测序组装与基因注释软件

    零、相关概念 一、数据质控控制 二、 kmer基因组评估 三、基因组拼接 第四步、评估组装结果 五、基因注释

  • 【Python小试】计算目录下所有DNA序列的Kmer并过滤

    背景 Kmer是基因组组装算法中经常接触到的概念,简单来说,Kmer就是长度为k的核苷酸序列。一般长短为m的rea...

  • kmergenie报错

    组装之前想评估一下用多长的kmer合适,找到了kmergenie软件:它可以进行k-mer分析及基因组大小评估。具...

  • Bacteria genome denovo assembly

    细菌基因组组装金标准:GAGE-B 组装软件的选择 细菌基因组组装的目标不同于大型生物基因组的组装,大型基因组组装...

  • 常用转录组组装软件集合

    转录组组装软件 基因组组装 基因组组装(Genome assembly)是指使用测序方法将待测物种的基因组生成序列...

  • 基因组结构注释

    1. 组装基因组质控 得到组装好的基因组序列之后,首先要使用多种方法评估组装质量。这里用到2款可用于基因组组装质量...

网友评论

    本文标题:基因组组装中的kmer究竟是何方神圣

    本文链接:https://www.haomeiwen.com/subject/exiuwftx.html