美文网首页
nanopore组装序列纠错

nanopore组装序列纠错

作者: 莫讠 | 来源:发表于2022-03-01 15:18 被阅读0次

参考:https://nanoporetech.com/sites/default/files/s3/literature/microbial-genome-assembly-workflow-cn.pdf

对于nanopore 官网上面对于微生物基因组组装,建议加以使用第三方从头组装工具flye,另外再使用RaconMedaka各进行一轮校正

Racon的使用

racon是一款用于基因组纠错的软件,既可以用于三代数据也可以用于二代数据的纠错。racon的运行速度比较快。racon既可以用于nanopore拼接结果,也可以用于pacbio数据拼接结果。此外,软件中还可以提供了一个racon_wrapper.py脚本,可以对输入文件进行拆分,提高运行效率。软件的使用也非常简单,输入数据需要三个,首先是contig,然后是测序的reads,以及前面二者比对的结果,这个比对结果可以是MHAP,PAF,SAM等三种格式当中的一种即可。数据结果为纠错后的contig序列。一般racon纠错也可以进行多轮。

  • 使用案例

racon的使用比较简单,只需要输入需要纠错的基因组序列以及原始测序数据即可,软件主要有三个重要选项:
1 sequences :测序数据,fasta或者fastq格式
2 overlaps :比对后的结果,MHAP/PAF/SAM格式
3 target sequences:需要纠错的序列,fasta或者fastq格式
下面我们来具体演示一下racon的三轮纠错,并不是非得三轮,也可以2轮,也可以4轮,看具体情况,需要注意的是,下一轮中使用的输入文件,为上一轮的结果,不要搞混了。

(base) qianwj@ubuntu-NF5280M5:~/project/ONT/2021_12_16_multi_sample_basecalling_gpu/1.1_error_correction $ minimap2 -t 4 ~/project/ONT/2021_12_16_multi_sample_basecalling_gpu/1_assembly/barcode01/barcode01_assembly.fasta ~/project/ONT/2021_12_16_multi_sample_basecalling_gpu/pass/barcode01/barcode01.fastq.gz  > round_1.paf

第一轮纠错

conda activate base
racon -t 4 ~/project/ONT/2021_12_16_multi_sample_basecalling_gpu/pass/barcode01/barcode01.fastq.gz round_1.paf ~/project/ONT/2021_12_16_multi_sample_basecalling_gpu/1_assembly/barcode01/barcode01_assembly.fasta > racon_round1.fasta

第二轮纠错

(nanopack) qianwj@ubuntu-NF5280M5:~/project/ONT/2021_12_16_multi_sample_basecalling_gpu/1.1_error_correction $ minimap2 -t 4 racon_round1.fasta ~/project/ONT/2021_12_16_multi_sample_basecalling_gpu/pass/barcode01/barcode01.fastq.gz > round_2.paf

(base) qianwj@ubuntu-NF5280M5:~/project/ONT/2021_12_16_multi_sample_basecalling_gpu/1.1_error_correction $ racon -t 4 ~/project/ONT/2021_12_16_multi_sample_basecalling_gpu/pass/barcode01/barcode01.fastq.gz round_2.paf racon_round1.fasta  > racon_round2.fasta

第三轮纠错

(nanopack) qianwj@ubuntu-NF5280M5:~/project/ONT/2021_12_16_multi_sample_basecalling_gpu/1.1_error_correction $ minimap2 -t 4 racon_round2.fasta ~/project/ONT/2021_12_16_multi_sample_basecalling_gpu/pass/barcode01/barcode01.fastq.gz > round_3.paf

(base) qianwj@ubuntu-NF5280M5:~/project/ONT/2021_12_16_multi_sample_basecalling_gpu/1.1_error_correction $ racon -t 4 ~/project/ONT/2021_12_16_multi_sample_basecalling_gpu/pass/barcode01/barcode01.fastq.gz round_3.paf racon_round2.fasta  > racon_round3.fasta

medaka

medaka是nanpore官方出的一款工具(这又是什么鱼,不知味道如何),它是一个基于叠加序列的一致性序列修正工具。Medaka 现可以用于变体识别(variant calling)。使用纳米孔R9.4.1版芯片和最佳的工具,现在你可以进行SNPs识别,获得99%准确率。例如,使用当前的R9.4.1 版纳米孔,利用Flip-flop碱基识别器和Medaka, 测序金黄色葡萄球菌(S.aureus)基因组,准确现达到Q44,其它的小型基因组准确率约 Q40。注意,这里面所讲的Q40并不是测序过程中Phred质量体系的Q40,目前已经很多人被这个地方给迷惑了。
软件官网:https://github.com/nanoporetech/medaka
软件安装:推荐使用bioconda

  • Medaka安装:
conda create -n medaka -c conda-forge -c bioconda -y medaka
  • 软件特色

由Oxford Nanopore开发的开源软件
仅需使用.fasta或.fastq数据
速度比Nanopolish快50倍,支持CPU和GPU
通常在Pomoxis组装后使用
用FASTQ文档和组装结果作为输入文件
50X5Mbase 基因组用时20分钟
在Racon基础上,进一步提升了数据准确率
可针对不同数据进行个性化纠错方法训练
兼容Linux和MacOS系统

使用案例

软件的使用非常容易,只需输入要优化的基因组以及原始测序数据即可。软件会自动调用minimap2进行比对。

相关文章

网友评论

      本文标题:nanopore组装序列纠错

      本文链接:https://www.haomeiwen.com/subject/dendrrtx.html