查询选择率的估计是查询处理和优化的重要问题之一。
在大多数数据库系统中,查询优化的任务是选择一个有效的执行计划,最优计划的选取需要对每个可选计划的代价给出精确的估计。
查询选择率的估计是查询优化的关键步骤,其精度直接影响最优计划的选取。
目前已经提出了许多查询选择率的估计方法;这些方法当每次收集统计数据时,通常需要额外的I/O操作访问数据库,因而导致昂贵的开销,只能脱机执行或在负载较轻的系统中执行;另外,多数方法只对低维数据有效。例如,当数据不超过三维时,某些直方图方法是有效的,随着维数增加它的性能会迅速下降。
因此对高维数据空间的查询选择率进行有效的估计仍是一个备受关注的问题。
在对查询选择率的估计方法中,直方图是一种有效的方法。本文提出了一种新的构造直方图的方法,这种方法的主要思想是基于数据区域的局部分布密度建立直方图,进而对查询选择率进行估计。如果在直方图中每个桶的分布密度是一致的或基本一致的,那么用其估计的查询选择率就是精确的。
通过实验测试这种方法,实验结果表明同现存方法比较,本文提出的这种方法在低维数据集(包括2维、3维和4维)中具有较高的精度,并且这种方法对于高维数据集(包括25维和104维)也是有效的。
网友评论