1、count(*)的实现方式
在不同的MySQL引擎中,count(*)有不同的实现方式:
- MyISAM 引擎把一个表的总行数存在了磁盘上,因此执行count(*)的时候会直接返回这个数,效率很高
- InnoDB执行count(*)的时候,需要把数据一行一行地从引擎里面读出来,然后累积计数
- 以上是针对没有过滤条件的count(*),如果加了where条件的话,MyISAM表也是不能返回这么快的
那么InnoDB为什么不和 MyISAM一样,也把数字存起来?
因为即使在同一时刻的多个查询,由于多版本并发控制(MVCC)的原因,InnoDB表“应该返回多少行”也是不确定的。
MySQL对count(*)的优化:
InnoDB是索引组织表,主键索引树的叶子节点是数据,而普通索引树的叶子节点是主键值。所以普通索引树比主键索引树小很多。对于 count(*) 这样的操作,遍历哪个索引树得到的结果逻辑上都是一样的。因此,MySQL 优化器会找到最小的那颗树来遍历。
在保证逻辑正确的前提下,尽量减少扫描的数据量,是数据库系统设计的通用法则之一。
如果使用show table status
命令的话,就会发现这个命令的输出结果里面也有一个table_rows
用于显式这个表当前有多少行,这个命令执行挺快的。但是这个结果是通过采样来估算的,不准确。
小结一下:
- MyISAM 虽然count(*)很快,但是不支持事务
- show table status 命令虽然返回很快,但是不准确
- InnoDB 直接count(*)会遍历全表,虽然结果准确,但是会导致性能问题
2、不同count用法
我们基于InnoDB来看下count(*)、count(1)、count(主键)、count(字段)的区别。
首先,count() 是一个聚合函数,对于返回的结果集,一行行地判断,如果count函数的参数不是null,累计值就加1,否则不加。最后返回累计值。
所以,count(*)、count(1)、count(主键)都表示返回满足条件的结果集的总行数;而count(字段),则表示返回满足条件的数据行里面,参数“字段”不为NULL的总个数。
- count(主键):InnoDB引擎会遍历整张表,把每一行的id值都取出来,返回给server层。server 层拿到 id 后,判断是不可能为空的,就按行累加。
- count(1):InnoDB引擎会遍历整张表,但不取值。server 层对于返回的每一行,放一个数字“1”进去,判断是不可能为空的,按行累加。
- count(字段):如果这个“字段”是定义为 not null 的话,一行行地从记录里面读出这个字段,判断不能为null,按行累加;如果这个“字段”定义允许为null,那么执行的时候,判断到有可能为null,还要把值取出来再判断一下,不是null 才累加。
- count(*):并不会把全部字段取出来,而是专门做了优化,不取值。count(*)肯定不是null,按行累加。
总结:按照效率排序的话,count(字段) < count(主键) < count(1) ≤ count(*),所以建议尽量使用count(*)
网友评论