美文网首页基因组组装
canu 组装PacBio数据

canu 组装PacBio数据

作者: 木夕月 | 来源:发表于2022-06-29 16:46 被阅读0次

    基因组组装的三个层次,contig, scaffold和chromosomes.
    contig表示从大规模测序得到的短读(reads)中找到的一致性序列。
    组装的第一步就是从短片段文库中组装出contig,进一步基于不同长度的大片段文库,将原本孤立的contig按序前后连接,这一步会得到scaffolds。最后基于遗传图谱或光学图谱将scaffold合并调整,形成染色体级别的组装(chromosome)

    详细可参考:Canu Pipeline — canu 2.2 documentation
    canu组装流程:canu -correct, 纠正,将原始数据使用MHAP算法进行比对,根据比对结果将reads进行聚类,根据聚类结果生成consensus一致性序列,从而对测序数据进行自我纠正。
    canu -trim, 采用CABOG中的重叠修剪(overlap-based trim)方法,将测序数据中不产生重叠的部分切除。
    canu -assemble, 使用纠正与修剪后的reads进行基于OLC算法的组装,生成contig,从而完成组装。

    Assembling PacBio HiFi with HiCanu
    Canu Quick Start — canu 2.2 documentation
    数据来源
    SRR10971019 : Run Browser : SRA Archive : NCBI (nih.gov)

    数据下载download

     vim download_data.sh
     #!/bin/bash
    prefetch-orig.2.10.8 `$sratool/srapath-orig.2.10.8 SRR10971019`
    qsub -N download -cwd download_data.sh
    

    数据转换sra2fastq

    vim sra2fastq.sh
     #!/bin/bash
    fastq-dump-orig.2.10.8 -O ~/WGS/E.c/fastq  --gzip ~/WGS/E.c/SRR10971019/SRR10971019.sra
    qsub -N sra2fastq -cwd sra2fastq.sh
    
    mkdir E.c
    curl -L -o ecoli.fastq https://sra-pub-src-1.s3.amazonaws.com/SRR10971019/m54316_180808_005743.fastq.1
    

    关于参数 useGrid=false:Canu will automatically take full advantage of any LSF/PBS/PBSPro/Torque/Slrum/SGE grid available, even submitting itself for execution. Canu makes heavy use of array jobs and requires job submission from compute nodes, which are sometimes not available or allowed. Canu option useGrid=false will restrict Canu to using only the current machine, while option useGrid=remote will configure Canu for grid execution but not submit jobs to the grid.
    如果默认参数报错,可以更改useGrid=false试一下。
    vim ecoli.sh

    #!/bin/bash
     canu \
     -p asm -d ecoli_hifi \
     genomeSize=4.8m \
     useGrid=false  \
     -pacbio-hifi ecoli.fastq
    

    nohup bash ecoli.sh &> log_ecoli
    生成文件夹:ecoli_hifi里asm.contigs.fasta文件为组装后的contigs.

    相关文章

      网友评论

        本文标题:canu 组装PacBio数据

        本文链接:https://www.haomeiwen.com/subject/gdjzvrtx.html