「Mysql索引原理（七）」覆盖索引

作者: 源码之路 | 来源:发表于2020-06-20 18:49 被阅读0次

MySQL索引
「Mysql索引原理（七）」覆盖索引
Mysql 相关
MySQL索引及查询优化书目录
高性能的索引策略
MySQL索引详解（四）BTree为什么更适合做索引结构
MySQL索引背后的数据结构及算法原理
mysql唯一索引覆盖索引
MySQL覆盖索引
MySQL索引底层实现原理 & MyISAM非聚簇索引 vs.

通常大家都会根据查询的WHERE条件来创建合适的索引，不过这只是索引优化的一个方面。设计优秀的索引应该考虑到整个查询，而不单单是WHERE条件部分。索引确实是一种查找数据的高效方式，但是MySQL也可以使用索引来直接获取列的数据，这样就不再需要读取数据行。如果索引的叶子节点中已经包含要查询的数据，那么还有什么必要再回到表中查询呢？如果一个索引覆盖所有需要查询的字段的值，我们就称之为“覆盖索引”。

覆盖索引是非常有用的工具，能够极大地提高性能：

索引条目通常远小于数据行大小，所以如果只需要读取索引，那MySQL就会极大地减少数据访问量。这对缓存的负载非常重要，因为这种情况下响应时间大部分花费在数据拷贝上。覆盖索引对于I/O密集型的应用也有帮助，因为索引比数据更小，更容易全部放入内存中。
因为索引是按照列值顺序存储的，所以对于I/O密集型的范围查询会比随机从磁盘读取每一行数据的I/O要少的多。对于某些存储引擎，例如MyISAM甚至可以通过OPTIMIZE命令使得索引完全顺序排列，这让简单的范围查询能使用完全顺序的索引访问。
一些存储引擎，如MyISAM在内存中只缓存索引，数据则依赖操作系统来缓存，因此要访问数据需要一次系统调用。这可能会导致严重的性能问题，尤其是那些系统调用找了数据访问中的最大的开销的场景。
由于InnoDB的聚簇索引，覆盖索引对InnoDB表特别有用。InnoDB的二级索引在叶子节点中保存了行的主键值，所以如果二级主键能够覆盖查询，则可以避免对主键索引的二次查询。

在所有这些场景中，在索引中满足查询的成本一般比查询行要小得多。
不是所有类型的索引都可以成为覆盖索引。覆盖索引必须要存储索引列的值，而哈希索引、空间索引和全文索引都不存储索引列的值，所以MySQL只能使用B+Tree索引所覆盖索引。另外，不同的存储引擎实现覆盖索引的方式也不同，而且不是所有的引擎都支持覆盖索引。

当发起一个呗索引覆盖的查询是，在EXPLAIN的Extra列可以看到“Using index”的信息。

如：explain select col1 from layout_test where col2=99

索引覆盖查询还有很多陷阱可能会导致无法实现优化。MySQL查询优化器会在执行查询前判断是否有一个索引能进行覆盖。假设索引覆盖了wehre条件中的字段，但不是整个查询涉及的字段。mysql5.5和更早的版本也总是会回表获取数据行，尽管并不需要这一行且最终会被过滤掉。

如：EXPLAIN select * from people where last_name='Allen' and first_name like '%Kim%'

image.png

这里索引无法覆盖该查询，有两个原因：

没有任何索引能够覆盖这个查询。因为查询从表中选择了所有的列，而没有任何索引覆盖了所有的列。不过理论上mysql有一个捷径可以利用：where条件中的列是由索引可以覆盖的，因此Mysql可以使用该索引找到对应的last_name并检查是否first_name是否匹配，过滤之后再读取所需要的数据行。
MySQL不能在索引中执行like操作。这是底层存储引擎API的限制。MySQL5.5和更早的版本只允许在索引中做简单的比较操作（等于、不等于及大于）。MySQL能在索引中做最左前缀匹配的LIKE比较，因为该操作可以转换为简单的比较操作，但是如果是通配符开头的LIKE查询，存储引擎无法做比较匹配。这种情况下，MySQL服务器只能提取数据行的值而不是索引值来做比较。

1. 如：EXPLAIN select * from people where last_name='Allen' and first_name like 'Kim%'

这条语句只检索1行，而之前的 like '%Kim%'要检索3行。
也有办法解决上面所说的两个问题，需要重写查询并巧妙设计索引。

EXPLAIN select * from people JOIN 
    ( select id as childid from people where  last_name='Allen' and first_name like '%Kim%' ) as t1 on (t1.childid=people.id)

这种方式叫做延迟关联，因为延迟了对列的访问。在查询第一个阶段MySQL可以使用覆盖索引，因为索引包含了主键id的值，不需要做二次查找。

-- 子查询利用到了覆盖索引

EXPLAIN select id  from people where  last_name='Allen' and first_name like '%Kim%'

在FROM子句的子查询中找到匹配的id，然后根据这些id值在外层查询匹配获取需要的所有列值。虽然无法使用索引覆盖整个查询，但总算比完全无法利用索引覆盖的好吧。

数据量大了怎么办？
这样优化的效果取决于WHERE条件匹配返回的行数。假设这个people表有100万行，我们看一下上面两个查询在三个不同的数据集上的表现，每个数据集都包含100万行。

第一个数据集。last_name为 ‘ming’ 的记录有30000条，其中对应的first_name包含 ‘xiao’ 的记录有20000条。
第二个数据集。last_name为 ‘ming’ 的记录有30000条，其中对应的first_name包含 ‘xiao’ 的记录有40条。
第三个数据集。last_name为 ‘ming’ 的记录有50条，其中对应的first_name包含 ‘xiao’ 的记录有10条。

实例1中，查询返回了一个很大的结果集，因此看不到优化的效果。大部分时间都花在读取和发送数据上了。

实例2中，经过索引过滤，尤其是第二个条件过滤后只返回了很少的结果集，优化的效果非常明显：在这个数据及上性能提高了很多，优化后的查询效率主要得益于只需读取40行完整数据行，而不是原查询中需要的30000行。

实例3中，子查询效率反而下降。因为索引过滤时符合第一个条件的结果集已经很小了，所以子查询带来的成本反而比从表中直接提取完整行更高。

在大多数存储引擎中，覆盖索引只能覆盖那些只访问索引中部分列的查询。不过，可以更进一步优化InnoDB。回想一下，InnoDB的二级索引的叶子节点都包含了主键的值，这意味着InnoDB的二级索引可以有效地利用这些额外的主键列来覆盖查询。

例如，people表中last_name字段有一个二级索引，虽然该索引的列不包括主键id，但也能够用于对id做覆盖查询：

select id,last_name from people where last_name='hua'

网友评论

本文标题：「Mysql索引原理（七）」覆盖索引

本文链接：https://www.haomeiwen.com/subject/fusgxktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

「Mysql索引原理（七）」覆盖索引

相关文章

MySQL索引