利用宏基因组数据组装某病原体基因组一(组装篇)

作者: 吕强强学生信 | 来源:发表于2023-03-06 21:33 被阅读0次

Bacteria genome denovo assembly
基因组组装: 3D-DNA 染色体挂载
基因组组装教程 (T2T)
常用转录组组装软件集合
基因组结构注释
Assembly数据库和genome数据库的区别
「干活」基因组组装学习笔记 - 入门知识点和Genome Su
02-Hi-C辅助基因组安装
使用ALLHiC基于HiC数据辅助基因组组装
生信步骤|kmc+genomescope进行基因组调查

一.前言：

有时候拿到某病原体感染病人的样本，未经培养而想获得病原体的基因组序列，直接利用二代测序获得进行宏基因组测序，通常思路就是通过bwa或者bowtie2与参考基因组比对获得比对上的Reads，然后对比对上的Reads进行组装，组装完后评估组装质量。

以感染某病原体的样本宏基因组数据为例，该病原体基因组大小约为610k bp分别尝试了不同的组装工具并对结果进行比较。

二.提取基因组序列:

提取基因组序列的具体实操网上太多例子不再重复，简单说一下过程，Bowtie2对参考基因组建索引，然后将宏基因组数据比对到ref上并提取比对上的序列生成bam文件，samtools并将bam文件转fastq文件，获得了来自目标物种的reads，进而进行组装。

三.组装：

我采用了三种二代的组装工具，比较不同工具结果作为最优选。

工具一：minia

Minia软件基于de Bruijn图原理的短序列组装工具，速度非常快，不消耗计算机资源，详细过程见之前的帖子。

我尝试了不同kmer进行组装，结果如下：

在kmer大小介于41~81时，基因组大小接近，N50接近，然后对这几个大小的kmer组装出来的基因组使用Quast进行评估。

工具二.SPAdes

SPAdes适用于细菌/真菌等小型基因组的组装，不推荐用于动植物基因组的组装，是2012年发表在Journal of Computational Biology上的一篇文章提出的二代测序组装软件，是目前引用量已经达到6200+，在宏基因组组装软件中引用量最高【其他组学不清楚了】。SPAdes不仅推出rnaSPAdes【转录组】、metaSPAdes【宏基因组】、plasmindSPAdes【质粒】，还推出了可以用于二代、三代测序数据混合组装的hybrid SPAdes功能。SPAdes虽然在速度、效率上比不过megahit，但SPAdes内部含校错功能，组装更加准确，也因此适合二代、三代混合组装。

官网：

http://cab.spbu.ru/software/spades/

wget https://cab.spbu.ru/files/release3.15.4/SPAdes-3.15.4-Linux.tar.gz

tar -zxf SPAdes-3.15.4-Linux.tar.gz

解压之后就可以使用了。

/public/home/rp1016swf/rp1016swf/software/SPAdes/bin/spades.py

其中spades.py 就是主要的提交脚本，该软件支持多种测序类型。

软件运行：

Read-pair 数据输入到程序中有 3 种方式：

1. left 和 right 的 reads 分别在两个 fastq 文件中。

2. left 和 right 的 reads 交叉融合在一个 fastq 文件中。

3. 将所有的输入数据信息整合在一个 YAML 格式的文本文件中。

通常我们拿到的数据都属于第一种类型，又可分为数据来自不同Library数量的情况，而我是单个 illumina paired-end 文库，我就先只尝试这种情况。

$ spades.py -o output_dir -1 reads1.fastq -2 reads2.fastq

参数均默认，如果数据量比较大，就要调整参数-t和-m，提高运算速度。

# m, memeory 250G by default

# t, thread 16 by default

#-k, 由逗号分隔的 k-mer sizes。这些数值必须为奇数，要小于 128，且按升序排列。如果使用了 --sc 参数，则默认值为 21,33,55 。若没有 --sc 参数，则程序会根据 reads 长度自动选择 k-mer 参数。

当有多个文库的时候：

双端数据用--pe1-1和--pe1-2分别指定双端测序的R1端和R2端序列文件，多个文库用数字后缀区分，比如--pe2-1, --pe2-2。

注意：spades只支持fastq文件，fasta文件不能用

结果：

输出结果目录会生成许多文件，其中scaffolds.fasta对应scaffold的结果，contig.fasta对应contig组装的结果。

参考：

https://www.jianshu.com/p/f2bbca9a3fe3

https://www.plob.org/article/7861.html

使用 SPAdes 进行基因组组装 | 陈连福的生信博客 (chenlianfu.com)

工具三.Megahit

简介：

实验室的宏基因组组装流程中配置的软件，一款超速的宏基因组从头组装工具，由港大—华大基因联合实验室（HKU-BGI）开发，其在计算时间和内存消耗方面有着巨大优势，适用于土壤等复杂环境样本的组装和大量样本的混合组装。Megahit采取的算法是基于kmer迭代的DBG法 (De-Bruijn Graph)，具体可见参考[1]中的描述，感觉这个组装工具的kmer迭代的DBG法还是挺新颖的。

下载及安装

megahit的github链接为: https://github.com/voutcn/megahit

下载二进制压缩文件解压后就能用。

软件运行，基本使用

megahit [options] {-1-2| --12| -r} [-o]