美文网首页基因组组装生物信息
利用masurca进行混合二、三代测序数据基因组组装

利用masurca进行混合二、三代测序数据基因组组装

作者: 挖泥种地 | 来源:发表于2021-06-21 10:22 被阅读0次

    现在组装新基因组,一般用pacbio的hifi测序模式进行olc组装+Hi-c辅助组装染色体就行了,但是我们实验室以前测了一些基因组是低覆盖度的pacbio的clr模式测序+50x以上二代,没有HI-C数据做的泛基因组,还是有需求对这一部分组装进行改进。

    该软件结合了debreijn 图和 Overlap-Layout-Consensus的方法,3.2.1版本以来masurca可以混合二代、三代数据进行基因组组装。

    (按我的理解,2代组装用了debreijn 图,组装成super reads.然后以3代为骨架进行map比对,比对上的super reads 用OLC进行组装)

    对计算资源的要求是:

    1 10Mb : 16Gb 内存,8 + 核,10Gb 磁盘空间 少于1小时

    2 500Mb: 128Gb 内存,16个内核,1Tb 磁盘空间 1-2天

    3 1Gb : 256Gb 内存,32 + 核,2Tb 磁盘空间 4-5天

    4 3Gb: 512Gb 内存,32 + 核心,5Tb 磁盘空间 15-20天

    5 30Gb : 1Tb 内存,64 + 核,10Tb + 磁盘空间 60-90天

    所以各位自己看一下怎么搞。

    安装

    有人制作了bioconda的包,但是官方明确说明不能用bioconda安装……

    1 安装numactl(必须要有,否则flye组装部分无法执行,然后程序弹出)

    sudo apt-get install numactl

    我搞了3-4天没组装成功,一直显示3代测序数据有问题,要我检查,但是也没查出毛病来,后面在某个论坛的旮旯里找到了一个回答,让安装这个,然后就没问题了。

    2 下载boost最新版本,进行安装,

    Boost C++ Libraries

    下载完了,解压,进入文件夹

    sudo ./boostrap.sh

    sudo ./b2 install

    然后就安装完毕了

    3  安装masurca

    GitHub - alekseyzimin/masurca 下载最新安装包

    解压,进入文件夹

    sh ./install.sh 会自动安装依赖软件包

    以上步骤就完成了全部的安装,反正我这里这样处理完就可以组装了

    使用

    这个软件进化到4.03版本的时候可以使用一条简单的命令行进行组装

    a 没有三代测序

    /path_to_MaSuRCA/bin/masurca -t 32 -i /path_to/pe_R1.fa,/path_to/pe_R2.fa

    b 有三代测序

    /path_to_MaSuRCA/bin/masurca -t 32 -i /path_to/pe_R1.fa,/path_to/pe_R2.fa -r /path_to/nanopore.fastq.gz

    一般情况下还是使用安装文件夹里面内置的config文件进行配置

    主要就是2代、3代测序文件的位置,预期基因组大小、能用多少个核。具体就不细说了,文档写的很详细。

    配置文件写好以后,$/install _ path/MaSuRCA-X.X. x/bin/masurca config.txt用这个命令能够生成一个assemble.sh的文件,然后运行就可以了。

    需要注意的是ubuntu内置的sh是dash,不能执行这个shell,必须要bash  ./assemble.sh才行。

    另外 flye组装步骤只支持最高128线程,但是前序步骤我这里160都没问题,可能可以支持更好,所以个人经验是config里第一次线程数写你的机器能用的最高线程,等跑到flye步骤出错后,再吧线程改为128以下,重新接着跑。

    相关文章

      网友评论

        本文标题:利用masurca进行混合二、三代测序数据基因组组装

        本文链接:https://www.haomeiwen.com/subject/xnxyyltx.html