美文网首页
利用宏基因组数据组装某病原体基因组一(组装篇)

利用宏基因组数据组装某病原体基因组一(组装篇)

作者: 吕强强学生信 | 来源:发表于2023-03-06 21:33 被阅读0次

一.前言:

有时候拿到某病原体感染病人的样本,未经培养而想获得病原体的基因组序列,直接利用二代测序获得进行宏基因组测序,通常思路就是通过bwa或者bowtie2与参考基因组比对获得比对上的Reads,然后对比对上的Reads进行组装,组装完后评估组装质量。

以感染某病原体的样本宏基因组数据为例,该病原体基因组大小约为610k bp分别尝试了不同的组装工具并对结果进行比较。

二.提取基因组序列:

提取基因组序列的具体实操网上太多例子不再重复,简单说一下过程,Bowtie2对参考基因组建索引,然后将宏基因组数据比对到ref上并提取比对上的序列生成bam文件,samtools并将bam文件转fastq文件,获得了来自目标物种的reads,进而进行组装。

三.组装:

我采用了三种二代的组装工具,比较不同工具结果作为最优选。

工具一:minia

Minia软件基于de Bruijn图原理的短序列组装工具,速度非常快,不消耗计算机资源,详细过程见之前的帖子。

我尝试了不同kmer进行组装,结果如下:

在kmer大小介于41~81时,基因组大小接近,N50接近,然后对这几个大小的kmer组装出来的基因组使用Quast进行评估。

工具二.SPAdes

SPAdes适用于细菌/真菌等小型基因组的组装,不推荐用于动植物基因组的组装,是2012年发表在Journal of Computational Biology上的一篇文章提出的二代测序组装软件,是目前引用量已经达到6200+,在宏基因组组装软件中引用量最高【其他组学不清楚了】。SPAdes不仅推出rnaSPAdes【转录组】、metaSPAdes【宏基因组】、plasmindSPAdes【质粒】,还推出了可以用于二代、三代测序数据混合组装的hybrid SPAdes功能。SPAdes虽然在速度、效率上比不过megahit,但SPAdes内部含校错功能,组装更加准确,也因此适合二代、三代混合组装。

官网:

http://cab.spbu.ru/software/spades/

wget https://cab.spbu.ru/files/release3.15.4/SPAdes-3.15.4-Linux.tar.gz

tar -zxf SPAdes-3.15.4-Linux.tar.gz

解压之后就可以使用了。

/public/home/rp1016swf/rp1016swf/software/SPAdes/bin/spades.py

其中spades.py 就是主要的提交脚本,该软件支持多种测序类型。

软件运行:

Read-pair 数据输入到程序中有 3 种方式:

1. left 和 right 的 reads 分别在两个 fastq 文件中。

2. left 和 right 的 reads 交叉融合在一个 fastq 文件中。

3. 将所有的输入数据信息整合在一个 YAML 格式的文本文件中。

通常我们拿到的数据都属于第一种类型,又可分为数据来自不同Library数量的情况,而我是单个 illumina paired-end 文库,我就先只尝试这种情况。

$ spades.py -o output_dir -1 reads1.fastq -2 reads2.fastq

参数均默认,如果数据量比较大,就要调整参数-t和-m,提高运算速度。

# m, memeory 250G by default

# t, thread 16 by default

#-k, 由逗号分隔的 k-mer sizes。这些数值必须为奇数,要小于 128,且按升序排列。如果使用了 --sc 参数,则默认值为 21,33,55 。若没有 --sc 参数,则程序会根据 reads 长度自动选择 k-mer 参数。 

当有多个文库的时候:

双端数据 用--pe1-1和--pe1-2分别指定双端测序的R1端和R2端序列文件,多个文库用数字后缀区分,比如--pe2-1, --pe2-2。 

注意:spades只支持fastq文件,fasta文件不能用

结果:

输出结果目录会生成许多文件,其中scaffolds.fasta对应scaffold的结果,contig.fasta对应contig组装的结果。

参考:

https://www.jianshu.com/p/f2bbca9a3fe3

https://www.plob.org/article/7861.html

使用 SPAdes 进行基因组组装 | 陈连福的生信博客 (chenlianfu.com)

工具三.Megahit

简介:

实验室的宏基因组组装流程中配置的软件,一款超速的宏基因组从头组装工具,由港大—华大基因联合实验室(HKU-BGI)开发,其在计算时间和内存消耗方面有着巨大优势,适用于土壤等复杂环境样本的组装和大量样本的混合组装。Megahit采取的算法是基于kmer迭代的DBG法 (De-Bruijn Graph),具体可见参考[1]中的描述,感觉这个组装工具的kmer迭代的DBG法还是挺新颖的。

下载及安装

megahit的github链接为: https://github.com/voutcn/megahit

下载二进制压缩文件解压后就能用。

软件运行,基本使用

megahit [options] {-1-2| --12| -r} [-o]

参数解释,必须输入参数:

-1comma-separated list of fasta/q paired-end #read1的序列文件

-2comma-separated list of fasta/q paired-end #read2的序列文件

--12comma-separated list of interleaved fasta/q paired-end files # 交错的双端PE序列

-r/--readcomma-separated list of fasta/q single-end files# 单端SE的序列文件

 结果解读:final.contigs.fa即组装结果。

参考:

[1]https://zhuanlan.zhihu.com/p/470457258

本文使用 文章同步助手 同步

相关文章

网友评论

      本文标题:利用宏基因组数据组装某病原体基因组一(组装篇)

      本文链接:https://www.haomeiwen.com/subject/ddfvldtx.html