本文目录

1.问题引入
2.B树的介绍
3.2-3树介绍
4.例子回顾
5.B-树的应用

问题引入

我们知道，数据库查询是数据库最主要的功能之一，我们都希望查询数据的速度尽可能的快，如果数据库中数据量比较大的话，稍有经验的开发都会建议我们在数据库中增加索引来提高数据库的查询效率，那么为什么数据库建立索引为什么会加快查询速度呢？
MySQL官方对于索引的定义为：

索引是帮助MySQL高效获取数据的数据结构。

首先明白为什么索引会增加速度，DB在执行一条Sql语句的时候，默认的方式是根据搜索条件进行全表扫描，遇到匹配条件的就加入搜索结果集合。如果我们对某一字段增加索引，查询时就会先去索引列表中一次定位到特定值的行数，大大减少遍历匹配的行数，所以能明显增加查询的速度。
然而，我们需要考虑一个现实因素，索引本身很大，不可能全部存储在内存中，因此索引以索引表的形式存储在磁盘中。这样的话，索引查找过程中就要产生磁盘I/O消耗，相对于内存存取，I/O存取的消耗要高几个数量级，因此我们要找一种能够减少I/O操作的数据结构作为索引的数据结构

如果我们用二叉查找树作为数据库的索引结构，如下图，假设树的高度是4，查找的值是10，那么查找的情形会是怎么样子的呢？

二叉查找树的结构

第一次IO操作：

第二次IO操作：

第三次IO操作：

第四次IO操作：

从上面的操作中，我们可以看出：我们对磁盘的IO的操作次数是4，索引树的高度也是4，所以最坏的情况下，磁盘IO次数等于索引树的高度。那么为了减少磁盘IO的操作，如果我们把原本“瘦高”的树结构变的“矮胖”，那么就可以减少磁盘IO的操作，这也是B- 树的特征之一。

B树定义

B树读音：

B-树就是B树英文名字叫做B-tree，读的时候，不能读成B减树，而是B树。中间的短线是英文连接符，只是翻译的时候将短线翻译成了减号。
全称Balance-tree(平衡多路查找树)，平衡的意思是左边和右边分布均匀。多路的意思是相对于二叉树而言的，二叉树就是二路查找树，查找时只有两条路，而B-tree有多条路，即父节点有多个子节点。

B树的阶：

对于一棵m阶B-tree，每个结点至多可以拥有m个子结点。

即遍观整棵树，子节点最多的个数是m，那么这棵树就是m阶树。

B树的定义：

根节点至少有两个孩子
每个非根节点有[ m/2，m ]个孩子
每个非根节点有[ (m/2) -1，m-1 ]个关键字，并且以升序排序
key[i]和key[i+1]之间的孩子节点的值介于两者之间
所有的叶子节点都在同一层

上面的条条框框看起来很复杂吧，我们先从B树的一个特例：2-3树作为切入点，来看看一个B树是如何构建和操作的。

2-3B树介绍

2-3树是这样的一棵多路查找树：其中的每一个结点都具有两个孩子（称为2结点）或三个孩子（称为3结点）。

它拥有如下属性：

一个2结点包含一个元素和两个孩子（或没有孩子），和二叉排序树一致，左子树包含的元素小于该元素，右子树包含的元素大于该元素。但是这个2结点要么有两个孩子，要么没有孩子，不能只有一个孩子。
一个3结点包含两个元素和三个孩子（或没有孩子），左子树、较小元素、中间子树、较大元素和右子树也按照从小到大排序。一个3结点要么有三个孩子，要么没有孩子。
2-3树的所有叶子结点都在同一层次上。
根据上面的描述，我们先看一棵正确的2-3树，如下图：

下面我们通过构造一棵2-3树来演示它的增删过程，假定初始数据为：{1, 7, 4, 9, 15, 13, 6, 5, 8, 10, 3, 12, 14, 2, 11}。