索引本质

MySQL官方解释：索引是为MySQL提高获取数据效率的数据结构，为了快速查询数据。索引是满足某种特定查找算法的数据结构，而这些数据结构会以某种方式指向数据，从而实现高效查找数据。

B+树

MySQL一般以B+树作为其索引结构，那么B+树有什么特点呢？

树度为n的话，每个节点指针上限为2n+1
非叶子节点不存储数据，只存储指针索引；叶子节点存储所有数据，不存储指针
在经典B+树基础上增加了顺序访问指针，每个叶子节点都有指向相邻下一个叶子节点的指针，如图所示。主要为了提高区间访问的性能，例如要找key为20到50的所有数据，只要按着顺序访问路线一次性访问所有数据节点。
带顺序访问的B+树简图

局部性原理和磁盘预读

那么为什么数据库系统普遍使用B+树作为索引结构，而不选例如红黑树其他结构呢？首先要先来介绍下局部性原理和磁盘预读的概念。
一般来说，索引本身较大，不会全部存储在内存中，会以索引文件的形式存储在磁盘上。所以索引查找数据过程中就会产生磁盘IO操作，而磁盘IO相对于内存存取非常缓慢，因此索引结构要尽量减少磁盘IO的存取次数。
为了减少磁盘IO，磁盘往往会进行数据预读，会从某位置开始，预先向后读取一定长度的数据放入内存，即局部性原理。因为磁盘顺序读取的效率较高，不需要寻道时间，因此可以提高IO效率。
预读长度一般为页的整数倍，主存和磁盘以页作为单位交换数据。当需要读取的数据不在内存时，触发缺页中断，系统会向磁盘发出读取磁盘数据的请求，磁盘找到数据的起始位置并向后连续读取一页或几页数据载入内存，然后中断返回，系统继续运行。而一般数据库系统设计时会将B+树节点的大小设置为一页，这样每个节点的载入只需要一次IO。

MySQL索引实现

MySQL存在多种存储引擎的选择，不同存储引擎对索引的实现是不同的，本章着重对常见存储引擎InnoDB和MyISAM存储引擎的索引实现进行讨论。

InnoDB索引实现

使用B+树作为索引结构，数据文件本身就是索引文件。数据文件按照B+树的结构进行组织，叶节点的data域存储完整的数据记录，索引的key即为表的主键。下图为主键索引示意图（盗图一波）。聚集索引使得搜索主键非常高效。

InnoDB主索引.png

数据文件本身按主键索引，因此InnoDB必须要有主键。没有主键怎么指定主键？

下图为辅助索引示意图，InnoDB辅助索引的data域存储的是主键的值。搜索辅助索引需要先根据辅助索引获取到主键值，再根据主键到主索引中获取到对应的数据记录。

InnoDB辅助索引.png

MyISAM索引实现

同样也是使用B+树作为索引结构，叶子节点data域存储的是数据记录的地址。数据文件和索引文件是分别存储在xxx.MYD和xxx.MYI（xxx表示数据表名），索引文件xxx.MYI保存数据记录的地址，具体可参考MySQL存储引擎简介。如图所示（盗了个图），为主索引的示意图。MyISAM中检索索引算法为：首先按照B+树搜索算法搜索，如果找到指定的key，取出其data域的值，再以data域值为地址查找对应的数据记录。因此MyISAM的索引方式也称为非聚集索引。