作者:May
审稿:童蒙
编辑:angelica
对于长读长序列组装,之前已经简单介绍了几款常用软件(详见三代组装软件简介),今天主要给大家介绍一下Canu。
Canu是基于OLC算法,具有长reads的自纠错和组装功能,是应用最为广泛的三代组装软件,从Canu v1.9开始,支持pacbio hifi的组装,目前最新的版本是2.1.1,以下将以该版为基础,介绍该软件的使用。
1、Canu的安装
Canu(Koren et al., 2017)是发展较早、相对成熟的组装软件,其运行速度慢(特别时在纠错步骤),组装准确性和连续性好。目前的版本为Canu v2.1.1,下载后可按照提示进行安装。
https://github.com/marbl/canu/releases
Canu需要依赖gnuplot和1.8版本以上的java,如没有请下载安装。
2、Canu参数说明
Canu对pacbio和nanopore原始数据的组装分为三个步骤:纠错,修整和组装。
每一步经历以下几个步骤:
1.加载read到read数据库(seqStore)
2.进行k-mer计数
3.计算overlap,加载到数据库(OvlStore)
4.根据overlap进行纠错/修剪/组装
Canu常用参数如下:
简单介绍下:
-pacbio-raw 指使用pacbio CLR 原始数据
-nanopore-raw 指使用nanopore 原始数据
-pacbio-hifi 指使用pacbio-hifi reads进行组装
rawErrorRate:未纠错read之间允许的最大差异碱基数,默认 PacBio reads为0.300, Nanopore reads为0.500
correctedErrorRate:纠错后read之间允许的最大差异碱基数,默认 PacBio reads为0.045, Nanopore reads为0.144
corOutCoverage:用于纠错的数据最小coverage,默认是40xmin
ReadLength:使用长度大于该阈值的reads,默认为1000min
OverlapLength:最小overlap的长度,默认为500
maxThreads:设置运行的最大线程数
3、Canu运行
运行命令:
canu -p fungi -d test -pacbio pacbio.fasta genomeSize=35000000 -s spec.txt
参数可以直接写在命令行,也可以写到spec.txt文件中通过-s传递给Canu。
不指定运行过程的情况下,对原始数据默认进行纠错、修剪、组装。
如果已完成纠错,可以通过指定-pacbio-correctd和-nanopore-correctd将纠错后的reads提供,进行修剪和组装( -trim 、-assemble、-trim-assemble)。
对hifi reads进行组装使用-pacbio-hifi,使用该参数将不在进行纠错,直接进行组装。
Canu支持断点续跑,程序中断重新投递时,会检查已生成的目录中的文件,运行没有完成的任务。
Canu可以根据当前服务器所有可用的资源,自动检测计算资源并扩展调整自身参数的配置。也可以用maxMemory和maxThreads参数来设置。
4、结果说明
Canu运行后生成的全部结果在test目录下,内容如下:
correction,trimming,unitigging记录了纠错、修剪和组装的过程,主要结果文件包括:
ecoli.correctedReads.fasta.gz:纠错后的reads
ecoli.trimmedReads.fasta.gz:修剪后的reads
ecoli.contigs.fasta:最终的组装contigs
ecoli.report:记录整个Canu运行过程及结果
5、结语
Canu自发布以来以其组装的高准确性,获得了超高的使用率和文献引用率。对于高杂合物种,Canu的组装通常会大于实际的基因组大小,建议后续对基因组去冗余。
6、参考文献
-
Koren S, Walenz BP, Berlin K, Miller JR, Phillippy AM. Canu: scalable and accurate long-read assembly via adaptive k-mer weighting and repeat separation. Genome Research. (2017). doi:10.1101/gr.215087.116
-
Koren S, Rhie A, Walenz BP, Dilthey AT, Bickhart DM, Kingan SB, Hiendleder S, Williams JL, Smith TPL, Phillippy AM. De novo assembly of haplotype-resolved genomes with trio binning. Nature Biotechnology. (2018).
-
Nurk, S., Walenz, B.P., Rhie, A., Vollger, M.R., Logsdon, G.A., Grothe, R., Miga, K.H., Eichler, E.E., Phillippy, A.M., and Koren, S. (2020). HiCanu: accurate assembly of segmental duplications, satellites, and allelic variants from high-fidelity long reads. Genome Res 30, 1291-1305.
网友评论