数据仓库具有以下特点
数据仓库中的数据是面向主题组织的
在较高层次上对分析对象的数据做一个完整的、一致的描述,能有效地刻画出分析对象所涉及的各项数据及数据间的联系。主题通常在一个较高层次上将数据归类的标准,每个主题对应一个宏观分析领域。数据仓库中应重新组织数据,完成业务数据向主题数据的转换。主题的抽取则应根据分析的要求进行确定,根据所需要的信息,分不同类别、不同角度等主题把数据整理之后存储起来
数据仓库的数据是集成的
事务处理系统中的操作型数据在进入数据仓库之前,必须经过统一和综合,演变为分析性数据。需要完成的工作包括:处理字段的同名异义,异义同名,单位不统一,长度不一致等问题,然后对源数据进行综合和计算,生成面向主题分析的高层、综合的数据
数据仓库的数据是稳定的
数据仓库中存放的是供分析决策用的历史数据,而不是联机事务处理的当前数据。涉及的数据操作主要是数据查询,一般不进行数据的增删改操作
数据仓库的数据是随时间不断变化的
数据仓库系统需要不断获取联机事务处理系统不同时刻的数据,经集成后追加到数据仓库中
数据仓库中的数据分为四个级别、早期细节级,当前细节级,轻度综合级,高度综合级
首先进入当前细节级,并根据具体需要进一步的综合,从而进入轻度综合级,乃至高度综合级。老化的数据进入早期细节级,数据仓库中存在着不同的综合级别,一般称之为粒度。粒度越大,表示细节程度越低,综合程度越高
元数据是“关于数据的数据”,是新一轮迭代开发和数据仓库维护的主要技术手册。如同数据仓库的导航器,快速高效的定位信息,实现数据检索和挖掘
1、技术元数据
存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据。它主要包括数据仓库结构的描述、业务系统、数据仓库和数据集市的体系结构及模式以及汇总用的算法和操作环境到数据仓库环境的映射
2、业务元数据
业务元数据从业务角度表述了数据仓库中的数据
数据仓库的建立过程一般有两种方法,“自顶而下”和“自底而上”。
自顶而下:先建立一个企业级数据仓库,然后再在其基础上建立部门级数据集市。
自底向上:优先建立一些数据集市,最后再把它们汇集成一个企业级数据仓库。
网友评论