生信小白学习系列：如何进行基因组组装？(1)

作者: lakeseafly | 来源:发表于2019-05-16 15:52 被阅读302次

生信小白学习系列：如何进行基因组组装？(1)
组装简介
「干活」基因组组装学习笔记 - 入门知识点和Genome Su
基因组组装: 3D-DNA 染色体挂载
02-Hi-C辅助基因组安装
生信小白组装学习系列：初识Canu与其组装实战训练(3)
基因组结构注释
生信小白学习系列：使用MaSuRCA对拟南芥进行组装的实战训练(
Bacteria genome denovo assembly
基因组组装----SOAPdenovo2

随着测序的发展，越来越多的生物体被进行基因组进行测序，这些测序的reads，再被用于组装或者其它相关的研究。基因组序列组装是一个研究的起点，如果你研究的物种没有参考基因序列，就无从找到该生物有的基因，进行基因的功能分析，然后开展下游的群体遗传，结构差异等等一系列非常有趣的研究。所以说组装好参考基因组是基因组研究的最基础的事情之一。接下来，希望通过网上一些教程，和大家熟悉了解一下如何进行基因组组装。

首先先让我们从大的picture来回顾一下，基因组组装的相关知识。

基因组组装的目的与其成功的决定因素

目的：

获得该生物体完整的基因组序列
注释蛋白质编码序列（注释（结构注释和功能）非常重要，了解知道蛋白质的功能是解决生物学问题的基础）

组装成功的决定因素：

被测序物种的基因特性（下个小节会讲）
测序的样品质量
测序技术的限制（短序列：短，组装碎片化；长序列：费用较高，错误率高）
使用的组装软件的合适性

组装中会遇到的“硬问题”

一般来说生物体的基因组越简单越好组装，像细菌真菌都比较好组装。那么影响组装的硬问题有哪些呢？

多态性

二倍体，甚至多倍体（物种的基因结构复杂，染色体有多个拷贝，基因组重复）
生物体杂合性高
有些物种非常小，你需要收集多个个体才能取得足够的DNA去测序去组装出基因组。

重复序列

重复序列往往会“迷惑”组装的工具

具体例子如下图：

假如reads S和T 在橙色的片段都具有一长串A的碱基，那么组装工具将会很难识别，纠结这两个片段是拥有两个相同copy的重复序列，还是他们本来就是overlap的可以连接起来。这样会造成组装的错误。

这里也顺带简单介绍一下常见的重复序列：

SINEs （ Short interspersed nuclear elements）

一般长度为500bp左右，人类的基因组大概还有1.5Mbp的这种短的重复片段。

LINEs （long interspersed nuclear elements）

一般长度为1Kbp左右，人类的基因组大概还有1.5Mbp的这种短的重复片段。

大片的重复

可以长至40Kbp或者更多

测序的质量

不同的测序技术有不同的优缺点
测序的深度（有些regions没有被很好覆盖到）
测序时候含有的污染（人的，细菌，真菌病毒等）都会影响组装。据统计，10％的已经在文献中发表的基因组，都还含有污染。

水平的专业性

需要知道如何安装组装的工具，了解组装工具的工具原理，并且调试组装的相关参数让你组装结果得到最优化，还有选择合适的组装工具，都需要一定的专业水平。

主要的组装算法

重叠序列相连

简单来说这种算法就是将所有的reads拿出来，相互比对，找到重叠的reads，然后构建长的连续的contigs，最后再将contigs组在一起形成scaffolds。这个过程可以基于下图来进行总结：

De Bruijn 图或者 k-mer 方法

主要的步骤包括：

将reads切成长度不同的片段（这里叫k-mers）
基于这些k-mers的组合，构建De Bruijn 图
构建序列基于重叠的k-mers
基于已经构建的序列片段，选择合适的片段，构建整个基因组的序列。

大概的过程如下图：

我该选用哪个组装的工具？

目前已经开发了很多不同的组装工具，根据你的物种或者测序技术，可以相应的选择不同的工具，一般来说我们可以这样选择：

如果你组装的是原核生物基因组，那么可以使用SPAdes，通常该工具比较适合小的基因组。
如果你组装的是真核生物基因组：

只使用短序列的reads进行组装：推荐使用MaSuRCA
只使用长序列的reads进行组装：推荐使用Canu或者Falcon
混合使用短序列和长序列的reads：推荐使用MaSuRCA
杂合度高的物种推荐使用Platanus

上面只是简单通用的推荐，当然如果你是专家，你可能还会使用一些更加个性化的工具方法。

这期介绍就到这里了，希望大家有所收获，组装并没有我们想像中那么难，后面会继续给大家带来组装的实战还有评估等等的教程，敬请大家关注点赞。

参考资料：

1.https://isugenomics.github.io/bioinformatics-workbook/dataAnalysis/GenomeAssembly/Intro_GenomeAssembly.html
2.https://environmentalmicrobiome.biomedcentral.com/articles/10.1186/1944-3277-10-18

网友评论

本文标题：生信小白学习系列：如何进行基因组组装？(1)

本文链接：https://www.haomeiwen.com/subject/yyviaqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

生信小白学习系列：如何进行基因组组装？(1)

基因组组装的目的与其成功的决定因素

组装中会遇到的“硬问题”

主要的组装算法

相关文章