http://calla.rnet.missouri.edu/cheng_courses/slides5.pdf
http://www.metagenomics.wiki/tools/blast/evalue
E值
BLAST E值是可能偶然发现的类似质量(得分)的预期命中数。
E值为10意味着在随机数据库大小相同的情况下,偶然匹配最多10次命中。
E值可用作BLAST搜索结果的第一质量过滤器,以仅获得等于或优于-evalue 选项给出的数字的结果。blast结果默认按E值排序(第一行最佳匹配)。E值越小,匹配越好。
blastn -query genes.ffn -subject genome.fna -evalue 1e-10
-evalue **1e-50**
小E值:低命中数,但质量高
E值小于1e -50的blast命中 包括非常高质量的数据库匹配。
-evalue **0.01**
E值小于0.01的爆炸命中仍然可以被认为是同源匹配的良好命中。
-evalue **10**
(默认)
大E值:许多命中,部分是低质量
小于10的E值将包括不能被视为重要的命中,但可能会给出潜在关系的概念。
E值(期望值)是根据序列数据库大小调整的校正比特分数。因此,E值取决于所使用的序列数据库的大小。由于大型数据库增加了误报命中的可能性,因此E值可以纠正更高的机会。这是对多重比较的修正。这意味着当在较小的数据库中存在时,序列命中将获得更好的E值。
** E** = **m** x **n** **/ 2<sup>bit-score</sup>**
m
- 查询序列长度
n
- 总数据库长度(所有序列的总和)
位得分
比特得分越高,序列相似性越好
比特分数是序列数据库的所需大小,其中当前匹配可能只是偶然发现。比特分数是log 2缩放和标准化的原始分数。每增加一倍,所需的数据库大小(2 位分数)就会增加一倍。
比特分数不依赖于数据库大小。比特分数为不同大小的数据库中的命中提供相同的值,因此可用于在不断增加的数据库中进行搜索。
网友评论