美文网首页
利用quickmerge对基因组组装的contig去重

利用quickmerge对基因组组装的contig去重

作者: 挖泥种地 | 来源:发表于2022-02-18 13:30 被阅读0次

    quickmerge是一个用来去除基因组组装中的重复的软件。

    该软件没有单独的文章,是作为某个基因组组装中的衍生脚本。该基因组文章是

    Improved Genome Assembly and Annotation of the Soybean Aphid (Aphis glycines Matsumura) 

    具体而言,基因组组装时候,第一步是组装contig,可以有多种方案,如纯ont组装,纯ccs组装,纯clr组装,以及二代三代masucra或者wenga混合组装等,还可以用同一套数据用不同的软件进行组装,如flye、mecat2、canu等。这样一个基因组就可以有多个组装版本的contig,可以将这些不同版本进行比较,去重,此时就可以用到quickmerge软件。

    安装很简单 ,conda就可以安装,如:

    conda install -c conda-forge -c bioconda quickmerge

    但是这里有个大坑:conda里面安装的这个版本不能使用多线程的mummer4,虽然也显示是V0.3版,但是和github上面真正的V0.3是不一样的,我花了半个小时没弄明白为啥不能按官方方法使用,最后看了源代码才发现不一样。conda的V0.3版本只能使用mummer3比对,mummer3是个单线程的,慢的要死。

    所以更好的办法是

    git clonehttps://github.com/mahulchak/quickmerge.git

    然后进入/quickmerge-master/文件夹,执行

    bash make_merger.sh

    然后将该文件夹加入path

    最后安装mummer4

    conda install mummer4

    到此安装结束:

    使用方法:

    简单版本的:

    merge_wrapper.py -p (前缀) -v -t (线程数) -l (切掉的contig长度) contig1.fasta contig2.fasta

    详细参数可以看-h

    注意 如果要使用多线程mummer4比对,必须有-v -t 参数,否则就是默认调用mummer3进行单线程比对,我自己试用了,24小时没结果,然后就放弃了,改多线程只要几十分钟。

    在这个比对过程之中,前面的contig1为query,后面的conig2为reference,按照官方说法,可以先用quast对所有组装进行评估,然后连续性较好的作为reference,另一个做query。

    另外软件作者说,合并完成后,可以用FinisherSC软件再进一步延长,完事再polish,而且必须再polish。

    对了合并之前的所有contig也需要polish。

    相关文章

      网友评论

          本文标题:利用quickmerge对基因组组装的contig去重

          本文链接:https://www.haomeiwen.com/subject/locylrtx.html