一.前言:
有时候拿到某病原体感染病人的样本,未经培养而想获得病原体的基因组序列,直接利用二代测序获得进行宏基因组测序,通常思路就是通过bwa或者bowtie2与参考基因组比对获得比对上的Reads,然后对比对上的Reads进行组装,组装完后评估组装质量。
以感染某病原体的样本宏基因组数据为例,该病原体基因组大小约为610k bp分别尝试了不同的组装工具并对结果进行比较。
二.提取基因组序列:
提取基因组序列的具体实操网上太多例子不再重复,简单说一下过程,Bowtie2对参考基因组建索引,然后将宏基因组数据比对到ref上并提取比对上的序列生成bam文件,samtools并将bam文件转fastq文件,获得了来自目标物种的reads,进而进行组装。
三.组装:
我采用了三种二代的组装工具,比较不同工具结果作为最优选。
工具一:minia
Minia软件基于de Bruijn图原理的短序列组装工具,速度非常快,不消耗计算机资源,详细过程见之前的帖子。
我尝试了不同kmer进行组装,结果如下:
![](https://img.haomeiwen.com/i17441306/e9c03c6296af06ca.png)
在kmer大小介于41~81时,基因组大小接近,N50接近,然后对这几个大小的kmer组装出来的基因组使用Quast进行评估。
工具二.SPAdes
SPAdes适用于细菌/真菌等小型基因组的组装,不推荐用于动植物基因组的组装,是2012年发表在Journal of Computational Biology上的一篇文章提出的二代测序组装软件,是目前引用量已经达到6200+,在宏基因组组装软件中引用量最高【其他组学不清楚了】。SPAdes不仅推出rnaSPAdes【转录组】、metaSPAdes【宏基因组】、plasmindSPAdes【质粒】,还推出了可以用于二代、三代测序数据混合组装的hybrid SPAdes功能。SPAdes虽然在速度、效率上比不过megahit,但SPAdes内部含校错功能,组装更加准确,也因此适合二代、三代混合组装。
官网:
http://cab.spbu.ru/software/spades/
![](https://img.haomeiwen.com/i17441306/e02261df01916119.png)
wget https://cab.spbu.ru/files/release3.15.4/SPAdes-3.15.4-Linux.tar.gz
tar -zxf SPAdes-3.15.4-Linux.tar.gz
解压之后就可以使用了。
/public/home/rp1016swf/rp1016swf/software/SPAdes/bin/spades.py
其中spades.py 就是主要的提交脚本,该软件支持多种测序类型。
![](https://img.haomeiwen.com/i17441306/47d5bb38c28e7a84.png)
软件运行:
Read-pair 数据输入到程序中有 3 种方式:
1. left 和 right 的 reads 分别在两个 fastq 文件中。
2. left 和 right 的 reads 交叉融合在一个 fastq 文件中。
3. 将所有的输入数据信息整合在一个 YAML 格式的文本文件中。
通常我们拿到的数据都属于第一种类型,又可分为数据来自不同Library数量的情况,而我是单个 illumina paired-end 文库,我就先只尝试这种情况。
$ spades.py -o output_dir -1 reads1.fastq -2 reads2.fastq
参数均默认,如果数据量比较大,就要调整参数-t和-m,提高运算速度。
# m, memeory 250G by default
# t, thread 16 by default
#-k, 由逗号分隔的 k-mer sizes。这些数值必须为奇数,要小于 128,且按升序排列。如果使用了 --sc 参数,则默认值为 21,33,55 。若没有 --sc 参数,则程序会根据 reads 长度自动选择 k-mer 参数。
当有多个文库的时候:
双端数据 用--pe1-1和--pe1-2分别指定双端测序的R1端和R2端序列文件,多个文库用数字后缀区分,比如--pe2-1, --pe2-2。
注意:spades只支持fastq文件,fasta文件不能用
结果:
![](https://img.haomeiwen.com/i17441306/1dc898428e5cfb0c.png)
输出结果目录会生成许多文件,其中scaffolds.fasta对应scaffold的结果,contig.fasta对应contig组装的结果。
![](https://img.haomeiwen.com/i17441306/194fa4c29bf106ba.png)
参考:
https://www.jianshu.com/p/f2bbca9a3fe3
https://www.plob.org/article/7861.html
使用 SPAdes 进行基因组组装 | 陈连福的生信博客 (chenlianfu.com)
工具三.Megahit
简介:
实验室的宏基因组组装流程中配置的软件,一款超速的宏基因组从头组装工具,由港大—华大基因联合实验室(HKU-BGI)开发,其在计算时间和内存消耗方面有着巨大优势,适用于土壤等复杂环境样本的组装和大量样本的混合组装。Megahit采取的算法是基于kmer迭代的DBG法 (De-Bruijn Graph),具体可见参考[1]中的描述,感觉这个组装工具的kmer迭代的DBG法还是挺新颖的。
下载及安装
megahit的github链接为: https://github.com/voutcn/megahit
下载二进制压缩文件解压后就能用。
软件运行,基本使用
megahit [options] {-1-2| --12| -r} [-o]
![](https://img.haomeiwen.com/i17441306/1219cd7e7704c7e2.png)
参数解释,必须输入参数:
-1comma-separated list of fasta/q paired-end #read1的序列文件
-2comma-separated list of fasta/q paired-end #read2的序列文件
--12comma-separated list of interleaved fasta/q paired-end files # 交错的双端PE序列
-r/--readcomma-separated list of fasta/q single-end files# 单端SE的序列文件
结果解读:final.contigs.fa即组装结果。
![](https://img.haomeiwen.com/i17441306/c993724ecf05e3f4.png)
参考:
[1]https://zhuanlan.zhihu.com/p/470457258
本文使用 文章同步助手 同步
网友评论