数据仓库
数据仓库,英文名称为Data Warehuse,简写DW或DWH。
数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。
数据仓库,是决策支持系统(dss)和联机分析应用(OLAP)数据源的结构化数据环境。
数据仓库,是一个面向主题的、集成的、相对稳定的、反映历史变化 的数据集合,用于支持管理决策。
数据仓库,是一个过程而不是一个项目。
特点
-
面向主题,数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,例如:收入、客户、销售渠道等,区别于业务支撑系统的按业务功能进行组织。
-
集成,数据仓库的数据来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库。
-
不可更新,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询。
-
随时间而变化,数据仓库中的数据通常包含历史信息,记录了企业过去某一时间点到当前的各个阶段的信息。
-
汇总,把操作性数据映射成决策可用的格式。
-
大容量,时间序列数据集合通常非常大。
-
非规范化,DW数据是经常冗余的。
-
元数据,将描述数据的数据保存起来。
-
数据源,数据来自内容和外部多个操作系统。
产生原因
数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“大型数据库”。
建设目的
数据仓库的建设的目的,是为前端查询和分析提供基础。
体系结构
数据源
- 内部信息,包括存放于RDBMS中的各种业务处理数据和各类文档数据。
- 外部信息,包括各类法律法规、市场信息和竞争对手的信息等。
数据的存储与管理
针对现有各业务系统的数据,进行抽取、清理、并有效集成,按照主题进行组织。
数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。
OLAP服务器
对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。
前端工具
主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。
数据仓库组成
数据抽取工具
把数据从各种各样的存储方式中拿出来,进行心要的转化、整理,再存放到数据仓库内。
数据库
是整个数据仓库环境的核心,是数据存放的地方和提供对数据检索的支持。
元数据
描述数据仓库内数据的结构和建立方法的数据。按用途可以分为两类:
-
技术元数据,是数据仓库的设计和管理人员用于开发和日常管理数据仓库使用的数据。包括:
- 数据源信息
- 数据转换的描述
- 数据仓库内对象和数据结构的定义
- 数据清理和数据更新时用的规则
- 源数据到目的数据的映射
- 用户访问权限
- 数据备份历史记录
- 数据导入历史记录
- 信息发布历史
-
商业元数据,是从商业业务的角度描述了数据仓库中的数据。包括:
- 业务主题的描述,包含的数据、查询、报表
元数据为访问数据仓库提供了一个信息目录,这个目录全面描述了数据仓库的内容,包括:
- 数据仓库中有什么数据
- 这些数据怎么得到的
- 怎么访问这些数据
数据集市
为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部分数据或主题数据(subjectarea)。
需要注意的就是,在实施不同的数据集市时,同一含义的字段定义一定要相容,这样在以后实施数据数据仓库时才不会造成大麻烦
数据仓库管理
数据仓库管理,主要包括:
- 安全和特权管理
- 跟踪数据的更新
- 数据质量检查
- 管理和更新元数据
- 审核和报告数据仓库的使用和状态
- 删除数据
- 复制、分割和分发数据
- 备份和恢复
- 存储管理
信息发布系统
把数据仓库中的数据或其他相关的数据发送给不同的地点或用户。基于Web的信息发布系统是对付多用户访问的最有效方法。
访问工具
为用户访问数据仓库提供手段。主要有:
- 数据查询和报表工具
- 应用开发工具
- 管理信息系统(EIS)工具
- 在线分析(OLAP)工具
- 数据挖掘工具
层次划分
1.数据层,实现对企业操作数据的抽取、转换、清洗和汇总,形成信息数据,并存储在企业级的中心信息数据库中。
2.应用层,通过联机分析处理,甚至是数据挖掘等应用处理,实现对信息数据的分析。
3.表现层,通过前台分析工具,将查询报表、统计分析、多维联机分析和数据发掘的结论展现在用户面前。
设计步骤
- 选择合适的主题(所要解决问题的领域)
- 明确定义事实表
- 确定和确认维
- 选择事实表
- 计算并存储fact表中的衍生数据段
- 转换维表
- 数据库数据采集
- 根据需求刷新维表
- 确定查询优先级和查询模式
建模划分
数据仓库的数据建模大致分为四个阶段:
- 业务建模
- 划分整个单位的业务,一般按照业务部门划分,进行各个部分之间业务工作的界定,理清各业务部门之间的联系。
- 了解业务部门业务流程并程序化
- 修改和改进业务部门业务流程并程序化
- 数据仓库项目的目标和阶段划分
- 领域概念建模
- 抽取关键业务概念,并抽象化
- 业务概念分组,按照业务主线聚合类似的分组概念
- 细分分组概念,理清分组概念内的业务流程并抽象化
- 理清分组概念之间的关联,形成完整的领域概念模型
- 逻辑建模
- 业务概念实体化,并考虑其具体的属性
- 事件实体化,并考虑其属性内容
- 说明实体华,并考虑其属性内容
- 物理建模
- 针对特定物理化平台,做出相应的技术调整
- 针对模型的性能考虑,对特定平台作出相应的调整
- 针对管理的需要,结合特定的平台,做出相应的调整
- 生成最后的执行脚本,并完善
建立步骤
步骤
- 收集和分析业务需求
- 建立数据模型和数据仓库的物理设计
- 定义数据源
- 选择数据仓库技术和平台
- 从操作型数据库中抽取、净化、和转换数据到数据仓库
- 选择访问和报表工具
- 选择数据库连接软件
- 选择数据分析和数据展示软件
- 更新数据仓库
数据转换工具
- 数据转换工具要能从各种不同的数据源中读取数据
关键问题
- 业务用户想要执行什么样的分析?
- 收集的数据需要支持哪些分析?
- 数据在哪儿?
- 数据清洁度如何?
- 相似的数据有多个数据源吗?
- 什么样的结构最适合核心数据仓库?
关系内容
数据仓库的出现,并不是取代数据库。大部分数据仓库还是用关系数据库管理系统来管理。
数据库与数据仓库是相辅想成的。
数据库与数据仓库二者的区别:
指标 | 数据库 | 数据仓库 |
---|---|---|
出发点 | 面向事务设计 | 面向主题设计 |
存储数据 | 在线交易数据 | 历史数据 |
设计规则 | 避免冗余,范式设计 | 引入冗余,反范式设计 |
提供功能 | 捕获数据 | 分析数据 |
基本元素 | 事实表 | 维度表 |
容量 | 小 | 大 |
服务对象 | 业务处理工作人员 | 企业高层决策人员 |
效益
数据仓库为企业了“以数据为基础的知识”,应用于市场战略评价,发现新的市场商机。
通过数据仓库,可以建立企业的数据模型,这对于企业的生产与销售、成本控制与收支分配有着重要的意义,极大的节约了企业的成本,提高了经济效益。
用数据仓库可以分析企业人力资源与基础数据之间的关系,可以用于返回分析,保障人力资源的最大化利用,亦可以进行人力资源绩效评估,做得企业管理更加科学合理。
网友评论