索引面试不用总是问“为什么要使用B+树作为索引”

作者: jesse_cheng | 来源:发表于2019-04-11 22:52 被阅读0次

索引面试不用总是问“为什么要使用B+树作为索引”
数据搜索数据索引
Mysql InnoDB B+树索引和哈希索引的区别？Mongo
Mysql性能优化-理解b+tree的索引机制
索引相关
索引的作用，优缺点
MySQL数据库索引选择使用B+树
MYSQL的索引与B+Tree
B+树
innodb 与 myisam 索引的区别

1 构建索引需要考虑的因素

1.1 计算机存储结构

计算机存储结构如下图所示，从上到下依次为寄存器、高速缓存、主存储器、辅助存储器。其中主存储器，即我们常说的内存；辅助存储器也被称为外存，比较常见的就是磁盘、SSD等。在这个存储结构中，每一级存储的速度都比上一级慢很多，所以程序访问越上层存储中的数据，速度就会越快。

1.2 局部性原理与磁盘预读

起因：内存读写快，磁盘读写慢，而且慢很多；
磁盘预读：磁盘读写并不是按需读取，而是按页预读，一次会读一页（一般为4KB, MySQL为16KB）的数据，即每次加载更多的数据。如果未来要读取的数据就在这一页中，可以避免未来的磁盘I/O，提高效率；
局部性原理：软件设计要尽量遵循“程序运行期间所需要的数据比较集中”和“当一个数据被用到时，其附近的数据也通常会马上被使用”，这样磁盘预读能充分提高磁盘I/O。

1.3 索引设计考虑因素

数据库索引因数据量较大，一般都是存储于外存中，而程序是在内存中执行的，这样就需要进行频繁的I/O操作，那么，为了减少I/O次数，该怎么做呢？我们知道，磁盘预读是按页操作的，如果每一页包含的信息量足够大，是不是就可以达成目的了。

索引设计需要考虑的第一个核心因素：保证每页包含尽可能多的关键信息，来减少磁盘I/O

2 可提升查找性能的数据结构

添加索引的目的，主要是为了提升数据库的查找速度。一般来说，可提升查找速度的数据结构有以下两种：
（1）哈希。比如HashMap，其查询、插入、删除的平均时间复杂度均是O(1);
（2）树。比如二叉查找树，其查询、插入、删除的平均时间复杂度均是O(log(n))。

可以看到，论时间复杂度，不管是读请求，还是写请求，哈希的性能会更好，可为什么DB却选择使用B+树呢？接下来，我将按“哈希表 -> 平衡二叉树 -> B树 -> B+树”的思路逐个进行分析。

索引设计需要考虑的第二个核心因素：结合DB各种搜索场景，选取更合适的数据存储结构

3 哈希表

假设采用HashMap存储，如果查询sql都是单行查询，比如

select * from user where name='zhangsan';

那么，采用哈希确实很快，但是，如果过滤条件是范围（<、>）,排序（order by）等查询场景呢？其时间复杂度将退化为O(n)。假设我们采用的是“m叉查找树”，由于其本身是排好序的，其时间复杂度仍将是O(log(n))，即仍能保证其高效率。

所以，相比“m叉查找树”而言，后者更加合适。

哈希表：指定数据的定位较快，范围查询较慢

4 平衡二叉树（AVL树）

平衡二叉树的结构如下图所示，可以认为它是升级版的二叉树，它有两个特征：

数据是有序排列的
任何节点的儿子子树高度差的绝对值不会超过1
采用中序遍历可获得所有节点

从图中可以看出，每个节点有且仅能存储一个记录，如果数据量大的话，树的高度将会很高，故而，当查询数据时，会产生很多次磁盘I/O。

相比哈希表而言，平衡二叉树支持范围查询，解决了哈希表的痛点

5 B树（平衡多路查找树）

B树的结构如下图所示，它有以下特点：

叶子节点和非叶子节点都存储数据（此特点会导致非叶子节点不能存储大量的索引）
采用中序遍历亦可获得所有节点

从图中可以看出，每一个节点可以有多个子节点，且每一个节点（包括非叶子节点）均存储数据，采用中序遍历便可查找到所有数据。但是，数据库磁盘交互是按页为单位（MySQL默认为16K）的，如果数据量过多时，每个节点存储的键值会较少，进而树的高度比较高，导致磁盘I/O比较多。同时，在实际项目中，范围查询的SQL比较频繁，倘若采用B树作为索引结构，需要中序遍历很多节点，来收集符合筛选条件的数据集。因此，此结构某种程度来看，不是太合适。