count(*)的实现原理

作者: WEIJAVA | 来源:发表于2019-06-24 11:55 被阅读16次

count(*)的实现原理
Hive Distinct的实现原理
【MySQL】14｜聊聊count()
mybatis-count(*) 注入问题
MySQL count(*) 慢吗
第二十节、count(*)这么慢，我该怎么办
14 . count
MySQL - count(*)
mysql count(*) count(1) count(主键
14 | count(*)这么慢，我该怎么办？

你首先要明确的是，在不同的MySQL引擎中，count(*)有不同的实现方式。

MyISAM引擎把一个表的总行数存在了磁盘上，因此执行count(*)的时候会直接返回这个数，效率很高；
InnoDB引擎执行count(*)的时候，需要把数据一行一行地从引擎里面读出来，然后累积计数，所以比较麻烦。

这上面说的两点泛指没有过滤条件的count(*)，如果加了where 条件的话，MyISAM表也是不能返回得这么快的，而我们业务系统一般都是用的InnoDB引擎(事务支持、并发能力、数据安全)，所以当你的记录数越来越多的时候，计算一个表的总行数就会越来越慢。

那为什么InnoDB不跟MyISAM一样，也把数字存起来呢？

这是因为即使是在同一个时刻的多个查询，由于多版本并发控制（MVCC）的原因，InnoDB表“应该返回多少行”也是不确定的。这里，用一个算count(*)的例子来解释一下。

假设表t中现在有10000条记录，设计了三个用户并行的会话。

会话A先启动事务并查询一次表的总行数；
会话B启动事务，插入一行后记录后，查询表的总行数；
会话C先启动一个单独的语句，插入一行记录后，查询表的总行数。

我们假设从上到下是按照时间顺序执行的，同一行语句是在同一时刻执行的。

image.png

你会看到，在最后一个时刻，三个会话A、B、C都会同时查询表t的总行数，但拿到的结果却不同。

这和InnoDB的事务设计有关系，可重复读是它默认的隔离级别，在代码上就是通过多版本并发控制，也就是MVCC来实现的。每一行记录都要判断自己是否对这个会话可见，因此对于count(*)请求来说，InnoDB只好把数据一行一行地读出依次判断，可见的行才能够用于计算“基于这个查询”的表的总行数。

当然，现在这个看上去笨笨的MySQL，在执行count(*)操作的时候还是做了优化的。

你知道的，InnoDB是索引组织表，主键索引树的叶子节点是数据，而普通索引树的叶子节点是主键值。所以，普通索引树比主键索引树小很多。对于count(*)这样的操作，遍历哪个索引树得到的结果逻辑上都是一样的。因此，MySQL优化器会找到最小的那棵树来遍历。在保证逻辑正确的前提下，尽量减少扫描的数据量，是数据库系统设计的通用法则之一。

如果你用过show table status 命令的话，就会发现这个命令的输出结果里面也有一个TABLE_ROWS用于显示这个表当前有多少行，这个命令执行挺快的，那这个TABLE_ROWS能代替count(*)吗？