定义
按照Bill Inmon的说法,数据仓库是一个面向主题的、集成的、非易失的,随时间变化的用来支持管理人员决策的数据集合。
特点
数仓主要有以下特点:
- 面向主题性
- 集成性
- 非易失性
- 随时间变化性
面向主题性
传统操作型系统是围绕公司的功能性应用进行组织的,应用问题是:汽车保险、健康保险、人寿保险与意外伤亡保险。
对应该保险公司主要主题域是顾客、保险单、保险费与索赔。
数据仓库典型的企业主题域:
- 用户
- 产品
- 交易或活动
- 政策
- 索赔
- 账目
集成性
数据仓库中的数据是从多个不同的数据源传送来的,进行转换和汇总,在这一过程中,各业务系统的不一致性将被消除、而命名习惯、关键字结构、属性度量单位、以及数据物理特点等都会进行统一。
非易失性
操作型数据一般以单条记录为粒度进行访问和处理,一般会周期性更新。
数据仓库的数据一般以批量方式导入和访问,作为静态快照进行存储,基本在数据仓库中不更新。
随时间变化性
数据仓库中的每条数据,都会包含某种形式的时间标志,说明数据只在某一时间准确。
网友评论