OLAP
联机分析处理 (OLAP--online analytical procession) 允许以一种称为多维数据集的多维结构访问来自商业数据源(如数据仓库)的经过聚合和组织整理的数据。OLAP会为关系数据库带来3个优点:持续的快速响应,基于元数据的查询及电子表格样式的公式。主要优点是能够提前计算数值,这样就能快速地呈现报表。OLAP工具通常分为两种基本基本模式:电子表格模型和数据库模型。
Cube
Cube即多维数据集,是指一组用于分析数据的相关度量值和维度,是分析服务中存储和分析的基本单位。Cube是聚合数据的集合,允许查询并快速返回结果。Cube就像一个坐标系,每一个Dimension代表一个坐标系,要想得到一个一个点,就必须在每一个坐标轴上取得一个值,而这个点就是Cube中的Cell。如下(图-1)所示。Cube能够包含不同维度的度量值,因此Cube有时也称为统一维度模型(Unified Dimensional Model,UDM)。
度量(measures)
度量表示用来聚合分析的数字信息,度量的集合组合成了一个特殊的维度。如数量、销售额、利润等。度量值是事实数据,它是用户可能要聚合的事务性值或度量。度量值源自一个或多个源表中的列,并且分组到度量值组。度量可分为两个范畴:存储度量和计算度量。存储度量是直接加载、聚合和存储进数据库的,它们可以从存储的计算结果中获取。计算度量是查询时动态计算度量的值,只有计算规则是存储在数据库中的。度量值可以是“销售额”、“出货量”等。
维度(dimention)
维度是一组属性,表示与多维数据集中度量值相关的领域,并且用于分析多维数据集中的度量值。例如,“客户”维度可能包括“客户名称”、“客户性别”以及“客户所在市县”等属性,用户可以按这些属性对多维数据集中的度量值进行分析。属性源自一个或多个源表中的列。可以将每个维度中的属性组织到层次结构中,以便提供分析路径。比如(图-1)中的三个维度:时间、来源、路线。 维度有3个主要的组成部分:层级、级别和属性。
层级(Hierarchy)
维度层级是可选的,但是OLAP系统常见的。一个层级是一个逻辑结构,它将一个维度的成员分组以用于分析。比如,一个Time维度可能有一个描述了月份怎样分组以显示一个季度和季度怎样分组以显示一个整年的层级。一个维度可以有多个层级。一个维度的结构是基于父子关系来组织层级的。
级别(Level)
一个维度上可以包含的层次结构,表示特定的分类。如地域维度可以包含的级别层次级:国家、省、市;时间维度包含的级别层次包含:年、季度、月、日等。每一个级别显示了层级中的一个位置。底层级别上的级别包含了聚合它下面级别的值。不同级别的成员有一个一对多的父子关系。一个层级一般包含几个级别,而一个单独的级别可以包含进不只一个的层级。如果在一个维度上建有多个层级,那么可能一个层级会显示在不只一个的层级中或可能只存在于一个层级中。
属性
属性提供了关于维度成员的描述信息,并且当你选择维度成员用于分析的时候也是可用的。大多数属性类型是可选的。
元数据(Metadata)
元数据就是关于数据的数据。通过增加标签,数字就从数据变成了信息。如下图所示,我们知道70代表销售量。这个标签就是元数据。元数据也称为度量值,包含在有属性和层次结构组成、与数值数据相关的维度中。
成员
一个成员是维度(包括度量<Measures>)上的项目值。如图-1中时间维度上”半年“级别的成员就包含:上半年、下半年...季度成员包含:第一季度、第二季度等。
计算成员
计算成员是一种运行通过特殊表示式动态计算的成员。也就形成了度量(Measures)的结果。计算成员不影响现有的Cube数据,它基于cube数据,通过各种数学表达式和各种函数定义,可以创建复杂的表达式。任何动态分析功能,都可以通过计算成员实现,比如实现占比,同期比等等。
数据仓库(Data Warehouse--DW)
数据仓库是一个记录系统,包含了公司内可信的数据。成熟的企业数据仓库包含了与该企业相关的所有数据。数据以每月、每周、每日或更频繁的频率被转载进来,然后进行报表生成和分析查询。
数据集市(Data Mart)
为了减小DW的压力,同时简化用户的访问,同一个主题的有关数据被提取出来,进行汇总并装载进数据集市。数据集市可以是关系型数据库,也可以是OLAP数据库。
事实表(fact table)
事实表是指在维度数据仓库中,存储度量值的详细值或事实的表。事实表存储的详细程度被称作事实表的粒度(granularity)。和事实表相关的维度被称为事实表的维数(dimensionality)。具有不同粒度或不同维数的事实必须分别存储在不同的事实表中。一个数据仓库通常可以有多个事实表。事实表都会使用被称为维度键(dimension key)的整数来标示维度成员,而不是采用描述性的名称。比如,用1表示中国,2表示美国。
事实表中包含数值数据的列对应于维度模型中的度量值,因此,每个事实表都是一组度量值。分析服务用一种称为度量值组(measure group)的逻辑结构组织信息,度量值组与单个事实表及其相关的维度对应。
维度表(dimension table)
在事实表中使用整数维度键时,维度成员的标签必须存入另一个表-----维度表。事实表中的每个维度键都有一个维度表。维度表用一行来表示每个维度的键属性成员。键属性有两列,分别包含整数维数键和属性标签。关系型数据库使用匹配的主键列(在维度表中)和外键列(在事实表中)的值将事实表和维度表中对应的记录联接。许多维度属性可用来对维度记录进行分组,并对每组中相关的事实进行汇总。能够用于创建分组的属性是可聚合的,其汇总值被称为聚合值(aggregate)。不可聚合的属性被称为成员属性(member property)。
代理键(surrogate key)
来源于业务系统的唯一的键值的键称为应用程序键(application key)或业务键(business key)。多数成功的DW产生自己唯一的键,这些额外的、冗余的唯一键称为代理键。代理键有3大好处:可以是整数、能够整合来自多个系统的数据、允许拥有渐变维度。即使应用程序键不是整数,代理键也可以是整数,这能使DW的事实表占用更小的空间。
渐变维度(slowly changing dimension)
在DW中使用代理键最具说服力的原因是处理属性值随时间改变的情况。属性值能改变的维度称为渐变维度。
网友评论