美文网首页基因组组装组装
Flye | 三代测序数据组装软件①

Flye | 三代测序数据组装软件①

作者: 生信百宝箱 | 来源:发表于2022-07-05 16:01 被阅读0次

    Flye软件简介

    Flye是美国加利福尼亚大学圣迭戈分校开发的针对三代测序数据的基因组de novo组装的生信软件,于2019年发表在Nature Biotechnology上,该软件支持Pacbio和Nanopore数据,同时也可以对宏基因组和质粒进行组装。

    Flye官网:

    https://github.com/fenderglass/Flye
    

    Flye软件安装:

    #conda安装flye
    conda install -y flye
    
    #编译安装flye
    wget https://github.com/fenderglass/Flye/archive/refs/heads/flye.zip
    #解压文件
    unzip flye.zip
    #安装软件
    cd Flye-flye
    make
    #将软件添加到环境变量(根据自己的安装路径进行添加)
    vim ~/.bashrc
    PATH=/opt/biosoft/GENOME/Flye-flye/bin/:$PATH
    source ~/.bashrc
    

    Flye示例数据下载:

    #pacbio示例数据下载
    wget \
    -O pacbio.sra \
    https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR8494912/SRR8494912  
    #nanopore示例数据下载
    wget \
    -O nanopore.sra \
    https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR8494939/SRR8494939
    

    Flye示例数据处理(sra转fastq):

    #pacbio示例数据处理(sra转fastq)
    fastq-dump --gzip --split-3 pacbio.sra
    #nanopore示例数据处理(sra转fastq)
    fastq-dump --gzip --split-3 nanopore.sra
    

    fastq-dump会将sra格式转化成fastq格式,同时--gzip参数会对fastq进行压缩,示例pacbio.sra最终会被转化为pacbio.fastq.gz

    Flye常用选项参数:

    --pacbio-raw :设置 pacbio 原始数据所在路径
    --pacbio-corr :设置纠错后 pacbio 数据所在路径
    --nano-raw :设置 nanopore 原始数据所在路径
    --nano-corr :设置纠错后的 nanopore 数据所在路径
    --genome-size :预估基因组大小,评估覆盖深度
    --out-dir :输出结果文件路径
    --threads :线程数
    --min-overlap :最小 overlap 连接大小
    

    PS:校正需要的时间较长,且效果也不明显,一般建议直接输入原始数据

    Flye使用案例:

    flye \
    --pacbio-raw pacbio.fastq.gz \
    --genome-size 5.4m \
    --out-dir pacbio_flye_out
    

    Flye主要结果输出文件:

    00-assembly #构建基因组草图
    10-consensus #基于基因组草图对数据进行纠错
    20-repeat #对重复序列进行处理
    30-contigger #构建contig
    40-polishing #对结果进行校准
    assembly.fasta #最终组装结果文件,用于下游分析
    

    相关文章

      网友评论

        本文标题:Flye | 三代测序数据组装软件①

        本文链接:https://www.haomeiwen.com/subject/nqeybrtx.html