一些关于K-mer的理解

作者: ZMQ要加油呀 | 来源:发表于2020-01-08 23:09 被阅读0次

一些关于K-mer的理解
算法（三）列举所有k-mer的组合
基因组分析 K-mer 第0回随机生成fasta文件
Illumina paire-end 序列拼接中的Kmer
「基因组survey」使用GenomeScope进行基因组分析
clustlasso基于k-mer预测细菌抗生素耐受性
基因组组装----k-mer
Python应用——分析序列k-mer
关于金钱的一些理解
关于ViewModel的一些理解

基因都是由A,T,C,G组成的。我们测序出来的大于几百bp的小的序列，我们叫做reads.我们测序的结果中有上百万条的reads，而这些reads的位置我们又不知道，我们只能根据他们重叠的部分来尽量还原他的原型。

k-mer是指将reads分成包含k个碱基的字符串，一般长短为m的reads可以分成m-k+1个k-mers.举个例子吧，为了简化，有这么个reads（当然实际比这个长）：AACTGACTGA.如果k-mer的k为3的话，我们可以将其切割为AAC ACT CTG TGA GAC ACT CTG TGA.我们将这些k-mers放入计算机中拼接，假设第一个为TGA ,那么下一个应该为GAG基于这样的思路，我们很快就发现了问题，下一个点可能有很多的选择，或者没有选择

我们需要找到包含每个点的，但是只包含一次。下图像不像我们小学之前做过的游戏，遍历每个点，但是每个点只能经过一次。

但是又提出了一个假设，如果有两条或多条呢？如何才能知道其中的一条是DNA的序列呢

我们上面提到的是3个碱基为一个node，现在我们就只要其中的2个来作图，然后将作出的图中相同的node合并，

这是两种算法思想，在Eulerian Path Problem中，visit every edge of the graph exactly once.

而在Hamiltonian Path Problem,visit every node exactly once.第一种算法更好实现，所以我们接下来讲关于Eulerian Path Problem的de Bruijin graphs.

在实际组装基因的时候，我们知道的是reads和k-mers，通过这个我们来基于Eulerian Path Problem来构建de Bruijin graphs，然后找Eulerian Path。可是会有很多的de Bruijin graphs，或者一个de Bruijin graphs有几个Eulerian Path。为了减少contigs,发明了read pair sequencing