快速上手的话见上一篇,这篇详细介绍一下 MUMmer 4 软件下 nucmer 程序的详细参数。
nucmer 的应用场景为:比较两个 genome assemblies,或者将一个 assembly 或测序 reads 比对到另一个基因组,或者比较可能存在大量重排和重复的两个相关物种的基因组。
常用命令:
nucmer [options] <reference> <query>
其中,<reference> 为包含 multi-FastA 的序列文件,即要与之比对的参考基因组;<query> 为与参考基因组相同格式的文件,即要与参考基因组比对的基因组文件。
输出文件为:
out.delta
即 reference 和 query 之间的比对结果,可以进一步使用 show-* 程序进行处理。
该过程中可选的参数有:
--mum #在 reference 和 query 中都是唯一的锚点匹配;
--mumreference #使用在 reference 中唯一但 query 中不一定唯一的匹配(默认);
--maxmatch #使用所有的匹配而不管其唯一性;
-c (--mincluster) #用于聚类的匹配最低长度,默认为 65;
-l (--minmatch) #单个匹配的最小长度,默认为 20;
-f / -r (--forwoard / --reverse) #只匹配正链或负链;
-g (--maxgap) #一个 cluster 中两个相邻匹配间的最大 gap;
-t (--threads) #多核心;
-b (--breaklen) #在对联配两端拓展式,在终止后继续延伸的程度,默认 200;
-p (--prefix) #输出文件的前缀;
--[no]delta #是否输出 delta 文件,默认是;
--depend #显示依赖信息后退出;
--[no]extend #是否外延,默认是;
等等,其它的可以通过 -h / --help 来进一步查看。
使用 -mum 或 -mumreference 选项帮助减少 repeat induced alignments 的数量;
降低 --mincluster 和 --minmatch 的值会提高比对的 sensitivity,但会减少获得更少的可靠比对结果;
在多个较大分化基因组之间进行比对时,显著提高 --maxgap 的值是必要的(比如增加至 1000);
设置 --noextend 可以防止 cluster 外延来加快进程,而 --nodelta 更进一步,甚至不对齐 cluster 中匹配的序列;该参数可以加快进程,但会减少输出中包含的信息量;
在不指定 -r 或 -f 的情况下,nucmer 会将查询序列的 forward 和 reverse strands 与参考序列的 forward 进行匹配,输出坐标总是与参考序列的 forward strand 进行匹配。
如果想要进一步了解该软件的使用,可以进一步阅读我写的其它分享;
要是觉得有用可以登录一下账号,点个赞,以表支持!
网友评论