美文网首页
数据仓库与数据挖掘技术—索引

数据仓库与数据挖掘技术—索引

作者: 熊猫学猿 | 来源:发表于2022-07-22 14:01 被阅读0次

B-Tree索引中存放的是基于索引列的取值,即B-Tree索引中存储的是实际的字段值。在数据检索过程中,索引记录是首先读入的,然后再读入对应的数据。当索引记录中包含对应的数据记录,就不需要再读人数据记录,从而可以在很大程度上提高效率。

一个B- Tree索引包含两种节点

1分支节点,指向对应的低层节点

2叶节点:存放实际内容

B-Tree索引中存储的是字段值本身,比较适合于高基数(数据基本不重复或均为唯一值)字段

增加了在数据仓库中构造和维护索引的代价,B-Tree索引包含实际数据和其他信息如指针等。使得索引需占用一定空间和时间,如果构造所有相关索引,数据仓库就会占2~4倍的原始数据空间,当成批插入删除时,索引就非常敏感,有可能失去平衡,并降低性能,通常10%到55%的数据修改就会导致创建索引

位图索引不以行记录而是按列为单位存储数据,对数据进行垂直分割。对于每一个记录的字段满足查询条件的真假值用1或0的方式表示,或用该字段中的不同取值来表示

位图索引适用于具有低基数特征的多维数据表,查询时主要进行二进制运算。

对于很少进行或根本不进行插入、更新操作的表比较适合建立位图索引。更新一个位图索引所涉及的开销要高于传统的索引机制中更新索引的开销

在数据仓库环境中,静态数据适宜采用位图索引,且低基数的列比较适合采用位图索引

位图索引的优点:

对于基数很小的字段,采用位图索引能节约空间,且由于位运算如与、或运算要比列表的相应运算容易的多,在检索上也可以提高相应的效率。数据的存取可以分组进行,位图的次序与数据存储的次序一致,所有的维都能对称地处理,而且稀疏数据可以与稠密数据一样处理

位图索引的缺点:

对位图实施OR运算进行范围查询可能代价很高

存储高基数数据的位图所需的空间总量大

批量更新也可能代价高昂,因为所有的位图索引可能因为插入一个新行儿需要修改

位图索引只有在每个字段基数都很小的时候可靠,否则,所需的存储空间和位运算总量可能会很大

标识符索引:

基于标识的数据库优势

1大量压缩数据

2数据越多,标识数据比标准的记录的数据更有利

3数据被大量压缩后可将整个数据库存放在内存中

4可索引所有行和所有列

5大量压缩数据的另一个主要益处是使索引所有属性成为可能

相关文章

网友评论

      本文标题:数据仓库与数据挖掘技术—索引

      本文链接:https://www.haomeiwen.com/subject/qmdjirtx.html