-
数据仓库
- 定义:一个面向主题的、集成的、非易失的,随时间变化的用来支持管理人员决策的数据集合。
- 面向主题:客户,库存,订单
- 集成:从多个不同数据源传送来的
- 非易失性:数据通常以批量方式载入与访问,但在数据仓库环境中并不进行数据更新
- 随时间变化:每个数据单元只是在某一时间是准确的
- 结构:
- DASD(直接存取存储设备)和磁带是数据仓库中应用最多的两种数据存取介质
- 粒度
- 定义:数据仓库中数据单元的细节程度或综合程度的级别
- 细节度越高,粒度级就越低,查询范围越广泛
- 粒度带来的好处
- 数据仓库中粒度化的数据是重用性的关键,它可以由众多用户以不同方式使用。例如在公司中,同一个数据可同时满足市场、销售和财务部门的需要。
- 可以对数据进行一致性协调
- 灵活性,可以容易的改变部门的数据观察角度。
- 包含了整个企业的活动和事件的历史,企业数据可以可为满足不同需求而进行重构
- 可以容纳将来的未知需求
- 数据粒度的权衡
- 高粒度级数据的数据量和原始空间较小,且只需要较少的索引项。可通过数据压缩,节省所用的DASD存储空间,节省所需的索引项,节省数据的处理器资源
- 每个s实体都有特殊的要求,数据仓库设计必须满足实体需要的最低粒度级别。不过,在数据仓库环境中进行DSS处理时,对单个事件进行检查的情况是很少的。
- 双重粒度
- 既提高存储与访问数据的效率,又顾及详细的数据分析——使用多重粒度级别。
- 轻度综合数据
- “真实档案”细节数据
- 既提高存储与访问数据的效率,又顾及详细的数据分析——使用多重粒度级别。
- 活样本数据库
- 定义:从数据仓库中取得的真实档案数据或轻度综合数据的一个子集。这个数据库需要进行周期性的刷新
- 活样本数据库适用于作统计分析和观察发展趋势,不适用于处理单个的数据记录
- 活样本数据库的最大好处是存取效率非常高
- 分区设计方法
- 在数据仓库环境中,日期几乎总是分区标准中的一个必然组成部分
- 数据仓库中的数据组织
- 简单堆积结构
- 轮转综合数据存储
- 简单直接文件:操作型数据间隔一定时间的一个快照
- 连续文件:依据两个或更多的简单直接文件生成
- 数据的同构/异构:
- 数据仓库中的数据按如下标准划分:主题域、表、数据在表中的出现
网友评论