美文网首页
《数据仓库》自用读书笔记①——数据仓库环境

《数据仓库》自用读书笔记①——数据仓库环境

作者: BigAnnoy | 来源:发表于2019-01-01 15:33 被阅读0次
    • 数据仓库

    • 定义:一个面向主题的、集成的、非易失的,随时间变化的用来支持管理人员决策的数据集合。
      • 面向主题:客户,库存,订单
      • 集成:从多个不同数据源传送来的
      • 非易失性:数据通常以批量方式载入与访问,但在数据仓库环境中并不进行数据更新
      • 随时间变化:每个数据单元只是在某一时间是准确的
    • 结构:
      • DASD(直接存取存储设备)和磁带是数据仓库中应用最多的两种数据存取介质
    • 粒度
      • 定义:数据仓库中数据单元的细节程度或综合程度的级别
      • 细节度越高,粒度级就越低,查询范围越广泛
      • 粒度带来的好处
        • 数据仓库中粒度化的数据是重用性的关键,它可以由众多用户以不同方式使用。例如在公司中,同一个数据可同时满足市场、销售和财务部门的需要。
        • 可以对数据进行一致性协调
        • 灵活性,可以容易的改变部门的数据观察角度。
        • 包含了整个企业的活动和事件的历史,企业数据可以可为满足不同需求而进行重构
        • 可以容纳将来的未知需求
      • 数据粒度的权衡
        • 高粒度级数据的数据量和原始空间较小,且只需要较少的索引项。可通过数据压缩,节省所用的DASD存储空间,节省所需的索引项,节省数据的处理器资源
        • 每个s实体都有特殊的要求,数据仓库设计必须满足实体需要的最低粒度级别。不过,在数据仓库环境中进行DSS处理时,对单个事件进行检查的情况是很少的。
      • 双重粒度
        • 既提高存储与访问数据的效率,又顾及详细的数据分析——使用多重粒度级别。
          • 轻度综合数据
          • “真实档案”细节数据
    • 活样本数据库
      • 定义:从数据仓库中取得的真实档案数据或轻度综合数据的一个子集。这个数据库需要进行周期性的刷新
      • 活样本数据库适用于作统计分析和观察发展趋势,不适用于处理单个的数据记录
      • 活样本数据库的最大好处是存取效率非常高
    • 分区设计方法
      • 在数据仓库环境中,日期几乎总是分区标准中的一个必然组成部分
    • 数据仓库中的数据组织
      • 简单堆积结构
      • 轮转综合数据存储
      • 简单直接文件:操作型数据间隔一定时间的一个快照
      • 连续文件:依据两个或更多的简单直接文件生成
    • 数据的同构/异构:
      • 数据仓库中的数据按如下标准划分:主题域、表、数据在表中的出现

    相关文章

      网友评论

          本文标题:《数据仓库》自用读书笔记①——数据仓库环境

          本文链接:https://www.haomeiwen.com/subject/rgvnlqtx.html