mysql实战(四)深入浅出索引(上)

作者: WAHAHA402 | 来源:发表于2020-04-07 14:24 被阅读0次

mysql实战(四)深入浅出索引(上)
MySQL 12 深入理解MySQL索引底层数据结构与算法
MySQL系统学习（04）：MySQL索引学习补充篇
MySQL实战45讲--04 | 深入浅出索引（上）
MySQL深入浅出索引（上）
Java程序员必备收藏系列：解析 MySQL 索引优化，轻松掌握
一篇文章搞定:MySQL 索引优化
MySQL实战 | 04 为什么要使用索引？
【MySQL】4｜深入浅出索引（上）
MySQL性能优化之分页查询优化

索引的出现是为了提高数据查询效率，就像一本书的目录。

一、索引的常见类型

哈希表
有序数组
搜索树

1、哈希表
哈希表是一种键-值存储数据的结构，通过哈希函数把key转换成数组中一个确定的位置，然后把value放到这个位置。不同key得到相同位置时，一种解决方法是拉出一个链表，查找该值时遍历该链表。
但是可以想象，做区间查询时速度会很慢，需要扫描全部的数据。因此，哈希表这种结构适用于只有等值查询的场景，比如Memcached及其他一些NoSQL引擎。

2、有序数组
有序数组在等值查询和范围查询场景中的性能都很优秀。可以通过二分法O(log(N))快速查到一个递增数组中的值。仅看查询效率，有序数组是最好的数据结构。但是，更新数据时，往中间插入一个记录就必须挪动后面所有的记录，成本太高。因此，有序数组适用用静态存储引擎，如2017年某个城市的人口信息。

3、搜索树
  二叉搜索树的特点是每个节点的左儿子小于父节点，父节点小于右节点。查询时间复杂度为O(log(N))。为了维护O(log(N))的复杂度，要保证这棵树为平衡二叉树，更新的时间复杂度也是O(log(N))。
  树有二叉，也有多叉。二叉树搜索效率最高，然而大多数数据库存储不使用二叉。因为索引不只存在内存中，还要写到磁盘上。想象下一颗100万节点的平衡二叉树，树高20，一次查询可能需要访问20个数据块。机械硬盘时代，从磁盘读一数据块需要10ms左右的寻址时间，访问一个100万行的表如果用二叉树存储，可能需要20*10ms毫秒的时间，可真够慢的。
  为了让一个查询尽量少读磁盘，就必须让查询过程访问尽量少的数据块，因此使用'N叉'。
  InnoDB的整数字段索引，这个N差不多是1200。当树高为4时，1200的三次方已经可以存储17亿行数据了。考虑到树根总在内存中，一个10亿行表上的整数字段索引，查找一个值最多只需要访问三次磁盘。其实第二层很大概率也在内存中，因此访问磁盘的平均次数就更少了。

二、InnoDB的索引引擎

  InnoDB中，表都是根据主键顺序以索引的形式存放的，这种存储方式的表称为索引组织表。InnoDB使用B+树索引模型，所有的数据都是存在B+树中的。
  每个索引在InnoDB里对应一颗B+树，一张表就是1或者几个B+树组成的。
  如下表：

mysql> create table T(
id int primary key, 
k int not null, 
name varchar(16),
index (k))engine=InnoDB;

表中 R1~R5 的 (ID,k) 值分别为 (100,1)、(200,2)、(300,3)、(500,5) 和 (600,6)，两棵树的示例示意图如下。

InnoDB的索引组织结构

  索引类型根据叶子节点的内容，分为主键索引和非主键索引。
  主键索引叶子结点存的是整行数据，主键索引也称为聚簇索引(clustered index)。
  非主键索引叶子结点存的是主键的值，非主键索引也称为二级索引(secondary index)。

基于主键索引和普通索引的查询有什么区别?

如果语句是 select * from T where ID=500，即主键查询方式，则只需要搜索 ID 这棵 B+ 树；
如果语句是 select * from T where k=5，即普通索引查询方式，则需要先搜索 k 索引树，得到 ID 的值为 500，再到 ID 索引树搜索一次。这个过程称为回表。
基于非主键索引的查询需要多扫描一颗索引树，因此应尽量使用主键索引。