一文看懂如何用QUAST评估组装的基因组

作者: 生信阿拉丁 | 来源:发表于2021-07-12 00:08 被阅读0次

一文看懂如何用QUAST评估组装的基因组
组装评估软件Quast和BUSCO
QUAST评估基因组组装质量
基因组结构注释
宏基因组分箱（二）Metabat2分箱实战
「BioNano系列」如何进行cmap之间的比对
测序组装与基因注释软件
基因组和转录组组装质量评估利器BUSCO（以大肠杆菌基因组质量评
使用LAI 指数评估基因组组装
基因组质量评估 | LAI

作者：童蒙
编辑：angelica

二代测序和三代测序技术给基因组研究带来了巨大的变革，然而二代技术的读长短、不能很好地处理重复区域；而三代技术读长长、但是准确率低；同时不同的组装软件也有各种不同的算法。为了更好地评测不同的软件、不同的数据在基因组组装方面的优势，作者升级了QUAST为QUAST-LG，增加了对三代测序和大基因组的评测。

一、依赖软件

长序列的比对：minimap
基因预测和功能比较：GeneMarkS, GeneMark-ES, GlimmerHMM, Barrnap, and BUSCO
SV检测：BWA, Sambamba, and GRIDSS
深度和覆盖度统计：bedtools
contig结果浏览器：Icarus、Circos

二、安装和使用

安装

conda一键安装，命令如下：
conda install -c bioconda quast

简易使用

./quast.py  test_data/contigs_1.fasta \ 
    test_data/contigs_2.fasta \
    -r test_data/reference.fasta.gz \
    -g test_data/genes.gff

contig.fasta是组装好的结果，可以同时跑多个文件，进行比较
-r : 参考基因组
-g：参考的基因集合

三、结果解释

小编自己拿人的组装结果进行了测试，各个结果统计如下：

表格内容的解释

1 Genome statistics

Genome fraction (%)    94.015
Duplication ratio    1.008
Largest alignment    24186441
Total aligned length    2741819159
NG50    4238925
NG75    692661
NA50    4339909
NA75    1231691
NGA50    3532470
NGA75    603978
LG50    166
LG75    625
LA50    166
LA75    469
LGA50    207
LGA75    756

带大家看下是些什么指标：

Genome fraction (%) : 基因组中被组装结果覆盖到的碱基数除以参考序列的总长度得到的比值；位于重复区域的contig可能会比对到多个位置，因此会被重复计算。
Duplication ratio：组装结果中可比对到基因组的碱基数与基因组中被覆盖到的碱基数的比值；如果组装的结果中重复序列较多，多个contig覆盖同一个基因组区域的话，这个值会大于1。这种情况可能是由于过多的估计了重复序列的拷贝数。
Largest alignment：将组装结果同基因组进行比对，得到的最大的连续的比对的长度；这个值一般会同largest contig相同，但是如果larget contig有些missassembled，或者部分未比对上去的话，会相对小一些。
Total aligned length：组装结果中可比对到基因组的碱基数，由于存在未比对和部分未比对，这个数字一般会小于组装的结果的总长度（total length)。
NG50：类似于N50的概念，指的是将组装结果从大到小排序，当第1到N个contig的总长度大于等于50%的基因组参考序列时的contig的长度，而N50用的则以50%的组装结果作为标准。
NG75：同NG50类似，将50%换成75%而已。
NA50：同N50类似，不同的是，不是对组装结果进行排序，而是对比对上的block进行排序，来进行统计大于等于50%的组装结果长度时的block的长度。A代表alignment。当一个contig比对上多个位置的时候，contig会被打断成多个block。
NA75：同NA50类似，将50%换成75%而已。
NGA50：对比对上的block进行排序，使用的是block的长度，来统计大于等于50%的基因组参考序列时block的长度。
NGA75：同NGA50类似，将50%换成75%而已。
LG50：同NG50配套，当达到NG50时，contig的个数。
LG75：同NG75配套，当达到NG75时，contig的个数。
LA50：同NA50配套，当达到NA50时，contig的个数。
LA75：同NA75配套，当达到NA75时，contig的个数。
LGA50：同NGA50配套，当达到NGA50时contig的个数。
LGA75：同NGA75配套，当达到NGA75时contig的个数。

2 Reads mapping

# mapped    3254077
Mapped (%)    99.98
# properly paired    0
Properly paired (%)    0
# singletons    0
Singletons (%)    0
# misjoint mates    0
Misjoint mates (%)    0
Avg. coverage depth    14
Coverage >= 1x (%)    99.95
Coverage >= 5x (%)    97.32
Coverage >= 10x (%)    71.41

mapped: 命令行中，提供的序列比对上的条目上；
Mapped (%)：比对率；
properly paired ：能够正确比对（方向和插入片段大小都正确）的reads的个数；
Properly paired (%)：# properly paired的序列的比例；
singletons : 单端比对上的reads的个数；
Singletons (%) ：# singletons 的比例；
misjoint mates：成对的两条序列，两条比对到不同的contig；
Misjoint mates (%)：# misjoint mates的比例；
Avg. coverage depth：平均的覆盖深度；
Coverage >= 1x (%) ：针对组装的结果，1x覆盖度的比例；
Coverage >= 5x (%) ：针对组装的结果，5x覆盖度的比例；
Coverage >= 10x (%) ：针对组装的结果，10x覆盖度的比例；

3 Misassemblies

Misassemblies    
# misassemblies    1412
   # relocations    1070
   # translocations    286
   # inversions    56
# misassembled contigs    740
Misassembled contigs length    1038454760
# local misassemblies    5745
# scaffold gap ext. mis.    0
# scaffold gap loc. mis.    0
# possible TEs    296
# unaligned mis. contigs    306

misassemblies : Quast检测四种misassemblies，分别为：
relocation：将contig同reference进行比对，左边的block与右边的block的距离超过了1K，或者二者重叠的距离大于1K
inversion：两个比对的blcok位于不同的strand上
translocation：两个比对的block位于不同的染色体上
misassembled contigs: 包含misassemblies事件的contig数
Misassembled contigs length ：包含misassemblies事件的contig的总得长度
local misassemblies : 满足以下两个条件的可以称之为local misassemblies，一个是gap或者overlap小于1K且大于indel的长度标准（85bp）的；左右两个block都在同一个strand和染色体上；
scaffold gap ext. mis.：组装结果中，scaffold比对到参考基因组，开gap长度的错误数，
scaffold gap loc. mis. : 组装结果中，scaffold比对到参考基因组，符合local misassemblies的要求，开gap长度的错误数
possible TEs：TE的数目。由于TE导致misassemblies的事件数。
unaligned mis. contigs : 一个contig存在50%的unaligned的碱基，同时包含一个misassembly事件时，我们认定为unaligned mis. contigs。

4 Unaligned

 # fully unaligned contigs    1428
Fully unaligned length    46340452
# partially unaligned contigs    1721
Partially unaligned length    26108910

fully unaligned contigs：没有比对上参考基因组的contig数
Fully unaligned length：没有比对上参考基因组的contig总长度
partially unaligned contigs：部分没有比对上基因组的contig数，长度大于参数值（500bp）
Partially unaligned length：部分没有比对上基因组的contig中总的没有比对上的碱基数

5 Mismatches

# mismatches    3515608
# indels    969582
Indels length    8739555
# mismatches per 100 kbp    129.06
# indels per 100 kbp    35.6
   # indels (<= 5 bp)    835402
   # indels (> 5 bp)    134180
# N's    0
# N's per 100 kbp    0

mismatches ：所有比对上的碱基中，mismatch的个数
indels ：所有比对上的碱基中，indel的个数
Indels length ：indel的总长度
mismatches per 100 kbp：每100kbp中，mismatch的个数
indels per 100 kbp : 每100kbp中，indel的个数
indels (<= 5 bp) : 长度小于5的indel个数
indels (> 5 bp) : 长度大于5bp的indel个数
N's ：N碱基的个数
N's per 100 kbp：每100kbp中N碱基的个数

6 Statistics without reference

# contigs    5649
# contigs (>= 0 bp)    5667
# contigs (>= 1000 bp)    5666
# contigs (>= 5000 bp)    5585
# contigs (>= 10000 bp)    4913
# contigs (>= 25000 bp)    3635
# contigs (>= 50000 bp)    2663
Largest contig    25250014
Total length    2817344836
Total length (>= 0 bp)    2817383104
Total length (>= 1000 bp)    2817382316
Total length (>= 5000 bp)    2817082622
Total length (>= 10000 bp)    2812071586
Total length (>= 25000 bp)    2790868742
Total length (>= 50000 bp)    2756006859
N50    5380095
N75    1473207
L50    133
L75    384
GC (%)    40.74

这个就很好理解了，我就简单地挑个写下，比如contigs ：contig的总的个数。

7 Predicted genes

# predicted genes (unique)    201597
# predicted genes (>= 0 bp)    1313830 + 0 part
# predicted genes (>= 300 bp)    99698 + 0 part
# predicted genes (>= 1500 bp)    3122 + 0 part
# predicted genes (>= 3000 bp)    436 + 0 part

predicted genes(unique)：预测到的基因个数

图片解释

报告最后一部分是紧跟着几个累积分布图，将contig按照大到小排序后，统计不同的指标，可以很直观地看到各个分布下的解释。由于这部分很直观，就不再解释了。

参考资料

http://quast.sourceforge.net/docs/manual.html#sec2
Alla Mikheenko, Andrey Prjibelski, Vladislav Saveliev, Dmitry Antipov, Alexey Gurevich, Versatile genome assembly evaluation with QUAST-LG, Bioinformatics, Volume 34, Issue 13, 01 July 2018, Pages i142–i150, https://doi.org/10.1093/bioinformatics/bty266

一文看懂如何用QUAST评估组装的基因组
作者：童蒙编辑：angelica 二代测序和三代测序技术给基因组研究带来了巨大的变革，然而二代技术的读长短、不能很...
组装评估软件Quast和BUSCO
Quast 通过计算各种指标来评估基因组组装。它既可以使用也可以不使用参考基因组安装：wget https://s...
QUAST评估基因组组装质量
QUAST是评估基因组组装质量的常用工具，可计算N50等contig基本信息（without reference）...
基因组结构注释
1. 组装基因组质控得到组装好的基因组序列之后，首先要使用多种方法评估组装质量。这里用到2款可用于基因组组装质量...
宏基因组分箱（二）Metabat2分箱实战
导读上一篇：宏基因组分箱（一）Megahit组装和QUAST质量评价。分箱工具有很多，我为什么选择Metabat...
「BioNano系列」如何进行cmap之间的比对
BioNano以cmap格式存放光学图谱，为了评估基因组的组装质量或者了解光学图谱中冗余情况(高杂合基因组组装结果...
测序组装与基因注释软件
零、相关概念一、数据质控控制二、 kmer基因组评估三、基因组拼接第四步、评估组装结果五、基因注释
基因组和转录组组装质量评估利器BUSCO（以大肠杆菌基因组质量评
基因组和转录组组装质量评估利器——BUSCO（Benchmarking Universal Single-Copy...
使用LAI 指数评估基因组组装
基因组组装完成后，可通过N50或者BUSCO，以及LAI评估组装质量。本文就LAI方法做一简单介绍。基因组中的重...
基因组质量评估 | LAI
转载自 LAI: 评估基因组质量一个标准基因组组装完成之后，就需要对最后的质量进行评估。我们希望得到的cont...