美文网首页微生物信息学微生物微生物分析
宏基因组分箱(一)Megahit组装和QUAST质量评价

宏基因组分箱(一)Megahit组装和QUAST质量评价

作者: 胡童远 | 来源:发表于2019-10-05 20:31 被阅读0次

导读

从本篇开始,我将介绍宏基因组分箱的生物信息分析方法。若想了解更多宏基因组分箱的知识请阅读:1. 宏基因组分箱(Binning)技术;2. 宏基因组组装工具比较;3. 宏基因组最佳分箱工具Metabat2。本篇将介绍Megahit组装宏基因组测序序列的操作方法。

一、准备工作

Megahit

用途:序列组装
地址:https://github.com/voutcn/megahit

QUAST

用途:组装评估
地址:http://quast.sourceforge.net/

原始数据

下载:

wget ftp.sra.ebi.ac.uk/vol1/fastq/ERR011/ERR011347/ERR011347_1.fastq.gz 
wget ftp.sra.ebi.ac.uk/vol1/fastq/ERR011/ERR011347/ERR011347_2.fastq.gz 

wget ftp.sra.ebi.ac.uk/vol1/fastq/ERR011/ERR011348/ERR011348_1.fastq.gz 
wget ftp.sra.ebi.ac.uk/vol1/fastq/ERR011/ERR011348/ERR011348_2.fastq.gz 

wget ftp.sra.ebi.ac.uk/vol1/fastq/ERR011/ERR011349/ERR011349_1.fastq.gz 
wget ftp.sra.ebi.ac.uk/vol1/fastq/ERR011/ERR011349/ERR011349_2.fastq.gz

处理:
下载、解压、质控后,将3个样品的上下游序列分别合并成ALL_READS_1.fastq和ALL_READS_2.fastq

二、Megahit组装

双端组装:

mkdir raw_merge
mv ALL_READS_[12].fastq raw_merge
ll -alh raw_merge/

      -rw-rw-r--  1 cheng WST 4.5G 9月  25 16:21 ALL_READS_1.fastq
      -rw-rw-r--  1 cheng WST 4.7G 9月  25 16:22 ALL_READS_2.fastq

time megahit -1 raw_merge/ALL_READS_1.fastq -2 raw_merge/ALL_READS_2.fastq -o assembly_megahit -t 16
# 耗时15分钟

ll -alh assembly_megahit/

      -rw-rw-r--  1 cheng WST   87M 9月  26 09:53 final.contigs.fa

结果文件final.contigs.fa中包含所有contig的长度、序列等关键信息

单端组装:

mkdir tmp
megahit \
-r SRR341593_bowtie2.1.fastq \
--tmp-dir tmp --out-dir out_megahit -t 20

三、QUAST评估

time quast assembly_megahit/final.contigs.fa -o assembly_quality/final.contigs -t 16
# 耗时10秒

ll -alh assembly_quality/final.contigs/

      drwxrwxr-x 2 cheng WST   4096 9月  26 10:18 basic_stats/
      -rw-rw-r-- 1 cheng WST  53358 9月  26 10:18 icarus.html
      drwxrwxr-x 2 cheng WST   4096 9月  26 10:18 icarus_viewers/
      -rw-rw-r-- 1 cheng WST   2853 9月  26 10:18 quast.log
      -rw-rw-r-- 1 cheng WST 509637 9月  26 10:18 report.html
      -rw-rw-r-- 1 cheng WST  29022 9月  26 10:18 report.pdf
      -rw-rw-r-- 1 cheng WST   1207 9月  26 10:18 report.tex
      -rw-rw-r-- 1 cheng WST    527 9月  26 10:18 report.tsv
      -rw-rw-r-- 1 cheng WST   1083 9月  26 10:18 report.txt
      -rw-rw-r-- 1 cheng WST   1048 9月  26 10:18 transposed_report.tex
      -rw-rw-r-- 1 cheng WST    527 9月  26 10:18 transposed_report.tsv
      -rw-rw-r-- 1 cheng WST    985 9月  26 10:18 transposed_report.txt

QUAST评估结果包含contig总数量、每个长度段的contig数量、最大contig长度、contig总长度、N50、GC含量等信息。QUAST分析得到了一大堆结果文件,report.html中有关键信息。打开report.html网页文件,结果如下:

图片.png

可视化统计结果如下:

图片.png 图片.png 图片.png

结束语

本篇宏基因组Megahit组装宏基因组序列的操作方法介绍完了,下期将介绍Metabat2分箱的操作方法。

\color{green}{😀😀原创文章,码字不易,转载请注明出处😀😀}

相关文章

网友评论

    本文标题:宏基因组分箱(一)Megahit组装和QUAST质量评价

    本文链接:https://www.haomeiwen.com/subject/qxjypctx.html