美文网首页
第三课:数据仓库

第三课:数据仓库

作者: 追寻者的小憩书铺 | 来源:发表于2018-09-11 15:58 被阅读12次

    一、数仓特点

    面向主题的:特定目的

    集成的:整合多个来源

    随时间变化的:可以有状态变化

    信息相对稳定的:数据入库后,查询频率远大于修改

    二、技术要求

    1 构建思想

        自上而下:建立一个统一的数据中心,从中挖掘业务

        自下而上:根据实际业务需求,构建数据仓库

    2 ETL

        用户从数据源抽取出所需数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

        数据仓库中最重要的概念之一,需要花费整个项目一半以上的时间。    

    3 存储和表设计原则

        包括表和路径命名原则和数据生命周期管理

    三、相关概念

    1 原数据

        表的定义数据,表的属性表。包含表名、路径、行列信息等。

    2 OLAP-联机分析处理

        一种软件技术,使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。

        主要概念包括:多维观察、数据钻取、cube运算

    多维观察

        维度:分析角度,即变量X集合。

        度量:度量指标,事实。即所要观察的Y值。

    cube运算

        切片:固定某个维度,来对数据进行分析(比如只分析4月份)

        切块:同时限制多个维度来分析(如4月份的北京)

        钻取:同一纬度上放大缩小范围。

            向上钻取:到高纬度查看抽象(如从月份数据到年份数据)

            向下钻取:到低纬度看细节(如从月份数据到天份数据)

        旋转:改变观察角度(自变量的XY轴)

    3 数据库设计模型

        星型:关系型设计思想,尽量只发散一级关系

        雪花模型:多级关系数据库

    四、技术架构

    1 好架构设计的标准

        结构层次清晰、数据质量有保障、易扩展、易用

    2 功能架构

        自下而上:采集中心(采集、校验等)、存储与计算中心(计算、建模、流处理)、服务中心(数据共享)、应用中心(用户画像、位置服务)、访问中心(WEB、APP),全程的管控中心(运营、数据、系统)

    3 数据架构

        自下而上:原数据(结构化、非结构化、流式)、采集中心(ETL)、存储与计算中心(对数据的存储和计算)、服务中心(数据加密、脱敏等)、数据访问(报表、实时分析)

    4 技术架构

         自下而上:采集中心(爬虫、日志等)、存储与计算中心(批处理平台、流处理平台)、服务中心(API)、应用中心(webservice)、访问中心(CLI、html5),全程的管控中心(yarn)

    相关文章

      网友评论

          本文标题:第三课:数据仓库

          本文链接:https://www.haomeiwen.com/subject/hlsugftx.html