美文网首页『三代测序』Docker生物信息
使用SPAdes测序数据拼接软件拼装基因组

使用SPAdes测序数据拼接软件拼装基因组

作者: kongxx | 来源:发表于2019-03-19 08:22 被阅读101次

    简介

    SPAdes 是由俄罗斯科学院 St. Petersburg Academic University 与美国科学家合作开发的主要应用于小型基因组如细菌,真菌等基因组测序数据的拼接软件。目前的最新版本 v3.6.2 可以支持常见的 illumina miseq/hiseq 和 ion torrent 测序数据,对单分子测序平台的 pacbio 和 nanopore 的测序数据也能进行拼装,还能进行混合数据的拼装。在 GAGE-B 的测拼里,在 Miseq 平台上的结果获得了最好的评价。

    准备

    下载测试数据

    curl -O ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/ERR/ERR571/ERR571271/ERR571271.sra
    

    将 sra 文件转换成 fastq 文件

    为了将sra文件转换成fastq格式,我们需要使用 fastq-dump 工具,这个工具被打包在 sratoolkit 工具包中。

    sratoolkit 工具包下载地址

    https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

    Linux环境可以执行选择下面地址直接下载并解压安装

    # CentOS
    wget -c https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-centos_linux64.tar.gz
    # Ubuntu
    wget -c https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-ubuntu64.tar.gz
    
    tar zxvf sratoolkit.2.9.2-centos_linux64.tar.gz
    

    将 sra 文件转换成 fastq 文件

    ./sratoolkit.2.9.2-centos_linux64/bin/fastq-dump --split-files ERR571271.sra
    

    解压后产生 ERR571271_1.fastq 和 ERR571271_2.fastq 文件。

    下载 Docker 镜像

    为了测试方便,这里没有从源码进行编译,而是直接使用的 Docker 容器来做测试。

    为了从 quay.io 获取 spades 镜像,需要先注册一个账号,注册比较简单,就是填个表格就行了。

    sudo docker login quay.io
    
    sudo docker pull quay.io/quay.io/biocontainers/spades:3.12.0--1
    

    运行 Docker 容器

    在上面下载的数据文件同级目录下运行下面命令来启动一个容器,且后续的测试命令都需要在此容器里运行。

    # 启动一个容器
    sudo docker run -it --rm -v `pwd`:/spades quay.io/biocontainers/spades:3.12.0--1 bash
    
    # 运行一下测试
    spades.py --test
    

    拼装基因组

    # 在容器中运行
    cd /spades
    spades.py -m 32 -t 16 -1 ERR571271_1.fastq -2 ERR571271_2.fastq -o output
    

    其中可以根据机器配置情况使用 -m 来调节内存,使用 -t 调节线程数。

    相关文章

      网友评论

        本文标题:使用SPAdes测序数据拼接软件拼装基因组

        本文链接:https://www.haomeiwen.com/subject/ekewmqtx.html