1.背景
空间数据经常是多维的,并不能用一些点来简单的表示。例如地图里面的街道、村庄等。对空间数据的一个典型操作是查找某个区域的所有目标,例如望京SOHO附近的饭店。
对空间数据建立索引是一种好的想法,但传统数据库的一维索引并不适合对多维数据的查找。例如 hash 等结构也不适合,因为搜索的时候有一定的范围。而类似 B-Tree 的一些结构不能实现对多维数据的查找。
2. R-Tree索引
R-Tree 索引是一个高度平衡的树,在它的叶节点存放指向数据的指针。并且 RTree 能够保证对一个空间数据的搜索只需要访问很小一部分的 node。
空间数据库包含了很多 tuple ,这些 tuple 代表了空间数据。每一个 tuple 有一个唯一的标识(ID ),这样可以访问到某个 tuple 。 RTree 中叶节点包含的索引记录的形式是 (I , tuple-identifier), 这里的 id 指向数据库中的一个 tuple 。 I 表示一个 n 维的矩形,这个矩形是一个 bounding box ,用来涵盖被索引的空间数据对象。
I =(I0, I1, I2, …., In-1) , n 表示维度, Ii 是一个闭区间 [a, b], 用来表示对象在第 i 维中的长度。另外,如果 a 或者 b 是无穷的话,表示该对象延伸到了无限远处。
非叶节点的形式是 (I, child-pointer) 。 child-pointer 是子节点的地址; I 是覆盖了其所有子节点的矩形。
在 RTree 中,每个节点所有的子节点的数目是有限制的,假设每个节点最多拥有 M 个子节点,m<=M/2. 则 RTree 有以下的属性:
- 除了根节点外,每个节点所拥有的子节点数要在 [m, M] 间;
- 对于每一个叶节点的索引记录 (I , tuple-identifier) , I 是最小的能够包含 n 维数据对象的矩形;
- 对于每一个非叶节点的索引记录 (I, child-pointer) , I 是最小的能够包含所有子节点的矩形;
- 根节点至少有 2 个子节点;
- 所有的叶节点都在同一层;
2.1 查找
查找是从根节点开始( 实现的时候需要从任意节点都可以) 。查找时,可能会有多个子树被访问。
假设根节点是T; 索引entry 用E 表示;EI 表示这个索引的矩形;Ep 表示tuple-identifier或者child-pointer.
2.2 搜索算法
给定一个RTree ,找出所有的索引记录,这些索引的矩形与搜索矩形S (这个搜索矩形是指定的,可以考虑为一个参数)有重叠的部分。
S1. 搜索子树。如果T 不是叶节点,检查每一个entry ,看EI 是否与S 有重叠,如果有,则递归调用search ,用于搜索以EP 为根节点的子树。
S2. 搜索叶节点。如果T 是叶节点,检查所有的entry E ,看EI 是否与S 有重叠,如果有,E就是一个满足条件的entry.
2.3 插入
为一个新的数据 tuple 插入一个索引记录,是指在叶节点增加一个新的索引记录,如果这个节点溢出(子节点数目大于 M ),则将这个节点进行 split ,然后更新树。
2.4 插入算法
- 为新记录找一个合适的位置。调用 ChooseLeaf 来选择一个叶节点 L 用于存放 E;
- 将记录增加到叶节点。如果 L 有空间(既它的子节点个数小于 M ),将 E 放大 L 中。否则,调用 SplitNode 获得 L 和 LL (其中 L 和 LL 是将 L 进行 split 后的结果,这 2 个新节点中包含了 L 中原来的所有节点和新节点 E );
- 在节点 L 上调用 AdjustTree 。如果进行了 split , LL 也作为一个参数;
- 如果节点的 split 导致了根节点的 split ,则创建一个新的根节点,这个节点的子节点是原来的根节点和 split 后的节点;
2.5 选择叶节点算法
选择一个叶节点,用于存放新的索引记录 E:
- 将 N 作为根节点;
- 如果 N 是叶节点,则返回 N;
- 如果 N 不是叶节点,选择 N 的子节点 F 。选择的 F 具有这样的性质。如果将 EI 包含到 FI中, FI 的面积增加的最少;
- 将 N 作为子节点,重复调用 CL2 和 CL3;
2.6 调整树算法
从叶节点 L 到根节点,进行调整:
- 令 N=L ,如果 L 之前进行过 split ,令 NN 作为另外一个新的节点( LL );
- 如果 N 是根节点,停止;
- 调整父节点的覆盖矩形。让 P 作为节点 N 的父节点,并且让 EN 作为 P 中 N 的 entry 。调整 ENI ,使其能够恰好 ( 不要有太多没用的空间 ) 包含矩形 N 中所有的 entry ;
- 如果 L 进行了 split ,创建一个新的 entry ENN , ENNP 指向 NN , ENNI 包含 NN 中所有的矩形。如果 N 的父节点 P 有空间,则将 ENN 放入到 P 中;否则,调用 SplitNode 算法,将 P 进行 split ,得到 P 和 PP ,他们包含了 ENN 和 P 中原来的所有 entry;
- 令 N=P NN=PP (如果有 split ),重复从 AT2 的过程;
2.7 节点 split 算法
为了在一个已经满的节点中增加一个新的节点,必须将这个节点进行 split 。 Split 就是将这M+1 个子结点从新进行分配到 2 个新的节点中。进行 split 后的结果应该这样,在后面对某个节点的搜索中,尽可能不要在两个新父节点中都进行搜索(既 split 后,尽量保证原来的每个节点只属于其中的某一个父节点)。
在搜索中是否搜索某一个节点,是有这个节点的矩形是否和待搜索矩形有重叠来决定的,因此,split 后的两个矩形的覆盖面积应该最小。
2.8 Split 算法
一是穷举法。显然不合适。
二是时间复杂度为平方的近似算法。这个算法试图找到一个面积和最小的 split ,但不保证会找的到。算法先从 M+1 个 enrty 中挑出两个作为 2 个新 group 的第一个元素。
这两个 entry 的选择是这样的:如果将这两个 entry 放到同一个 group 的话,所需要的矩形面积最大。然后每一步再对剩余的 entry 进行分组,每个元素放到一个 group 中。在每一步中,计算将每个 entry 放入到每个group 后的面积增加值,然后将差值最大的 entry 进行分配。
2.8.1 平方级 split
将 M+1 个 entry 分配到两个 group 中:
- 为每个 group 选择第一个 entry 。利用算法 PickSeeds 来选择最初的两个 entry ,并将他们分配到不同的 group 中;
- 检查是否结束。如果所有的 entry 都已经分配了,停止。如果一个 group 拥有的 entry 比较多,那么要将剩余的 entry 分配到另外一个 group( 为了保证 >=m);
- 调用算法 PickNext 来将下一个 entry 进行分配。将该 entry 分配到面积增加最小的组中。重复第二步;
2.8.2 选择第一个元素算法
- 对于每一对 entry : E1 和 E2 ,计算包含 E1I 和 E2I 的矩形 J 的面积,令 d=area(J)-area(E1I)-area(E2I);
- 选择 d 最大的作为初始元素;
2.8.3 选择下一个元素
- 对于每一个没有分配到 group 中的 entry E ,计算 将 EI 放到 group1 中后的面积增加值 d1,d2 类似计算d1、d2差值的绝对值:d = |d1 - d2|
- 选择d最大的entry;
网友评论