美文网首页数据仓库
第二章 数据仓库环境

第二章 数据仓库环境

作者: 晨磊的微博 | 来源:发表于2018-12-11 19:56 被阅读9次

    第一章 决策支持系统(DSS)的发展
    第二章 数据仓库环境

    第二章 数据仓库环境

    2.0 数据仓库的4个特征

    • 数据仓库是体系结构化环境的核心,是DSS的基础
    特性 说明
    面向主题 区别与面向应用
    集成的 需经过ETL的
    非易失 批量载入和访问(快照,不进行一般意义的更新)
    时变性 所有记录都有时间标志,说明其在哪个时间是准确的

    2.1 数据仓库的结构(数据细节)

    细节级别 所属层 记忆
    早期细节级 DW 归档数据
    当前细节级 DW 近1~2年等
    轻度汇总级 MID
    高度汇总级

    2.2 面向主题(的特征)

    特征 记忆
    包含N个物理表
    通过主键联系
    可以不同介质存储

    2.3 从第一天到第N天(进化,非一蹴而就)

    • 简答说明数据仓库的需一步步进化,而非一蹴而就

    2.4 粒度(设计的第一个主要问题)

    粒度影响
    数据量大小 粒度越小,存储越大
    所能答的问题 粒度越小,能回答的问题越多
    • 双重粒度及多重粒度是必然
    粒度的好处
    不同人不同视角
    一致性协调
    灵活性
    方便重构
    未知需求

    2.5 探查与数据挖掘

    • 细节数据方便探查和数据挖掘

    2.6 活样本数据库

    • 抽取 1/100或1/1000

    2.7 分区设计方法(设计的第二个主要问题)

    • 分区的目的是把数据划分成小的可管理的物理单元
    • 数仓的本质就是灵活的访问数据,大块数据不能满足这一要求,因此要分区

    2.8 数据仓库中的数据组织

    常见结构 说明 拓展
    简单堆积文件 最常用 类似普通事实表
    轮转综合文件 简单堆积的变种
    简单直接文件 快照 类似维度建模中的累积快照
    连续文件 类似于维度建模中的缓慢变化维

    2.9 审计与数据仓库

    • 数仓可以进行审计,但太复杂建议在别的地方进行
    • 4个不适合审计的原因
    原因
    仓库中会突然出现数据
    时间标定过程发生剧变
    备份和恢复限制发生剧变
    粒度处于最低级别

    2.10 数据的同构/异构(存储、架构不同)

    数据的划分标准

    • 主题域:如产品域
    • 表:产品表,销售商表,订单表,发货表,产品材料表
    • 数据在表中的出现:1月订单,2月订单,3月订单

    2.11 数据仓库中的数据清理

    数据根本没有删除,而是上升到更高级汇总

    删除 说明
    进入轮转综合文件 就是汇总了呗
    转移至低价存储 比如导入到OSS
    真正删除 实在没用的就删了
    层次转移 由ods到dw

    2.12 报表与体系结构化环境

    报表类型 举例 环境
    操作型报表 每日订单明细 业务系统
    数仓型报表 每日订单量 仓库

    2.13 各种环境中的操作型窗口(操作型环境)

    • 数据仓库中全是档案数据
    • 操作型环境也需要档案数据(如用户查看近半年的某个订单等)
    • 操作型环境中档案数据的时间范围就是操作型窗口

    2.14 数据仓库中的错误数据

    示例:7月1日账户A增加5000元,7月2日仓库生成了快照,但在8月15日发现错误了,不是5000元,而是750元,怎么修改呢?

    序号 方法 描述 好处 坏处
    1 更新历史数据 更新7月2日的数据 干净彻底 数据集被破坏,必须更新仓库,需进行很多修改
    2 加入修正条目 8月16日加入两天数据,-5000,+750 最新数据的最好反映 需进行很多修改,规则复杂时候很难修复
    3 不管历史,更正最新值 8月16日修正为 +750 准确反映余额 无法解释过去的错误,且需要对应用与过程进行约定

    2.15 小结

    • 数据仓库设计的几个重要问题
    总结 说明 记忆
    特征 集成、主题、非易失、时变性 jzfs(近战法师)
    数据设计的主要问题 分区、粒度、细节、异构、组织、清理、错误 fl.xyz.cc(clean,cuowu)
    操作型系统的数据工作 操作型报表,操作型窗口

    相关文章

      网友评论

        本文标题:第二章 数据仓库环境

        本文链接:https://www.haomeiwen.com/subject/utaehqtx.html