一、数仓特点
面向主题的:特定目的
集成的:整合多个来源
随时间变化的:可以有状态变化
信息相对稳定的:数据入库后,查询频率远大于修改
二、技术要求
1 构建思想
自上而下:建立一个统一的数据中心,从中挖掘业务
自下而上:根据实际业务需求,构建数据仓库
2 ETL
用户从数据源抽取出所需数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
数据仓库中最重要的概念之一,需要花费整个项目一半以上的时间。
3 存储和表设计原则
包括表和路径命名原则和数据生命周期管理
三、相关概念
1 原数据
表的定义数据,表的属性表。包含表名、路径、行列信息等。
2 OLAP-联机分析处理
一种软件技术,使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。
主要概念包括:多维观察、数据钻取、cube运算
多维观察
维度:分析角度,即变量X集合。
度量:度量指标,事实。即所要观察的Y值。
cube运算
切片:固定某个维度,来对数据进行分析(比如只分析4月份)
切块:同时限制多个维度来分析(如4月份的北京)
钻取:同一纬度上放大缩小范围。
向上钻取:到高纬度查看抽象(如从月份数据到年份数据)
向下钻取:到低纬度看细节(如从月份数据到天份数据)
旋转:改变观察角度(自变量的XY轴)
3 数据库设计模型
星型:关系型设计思想,尽量只发散一级关系
雪花模型:多级关系数据库
四、技术架构
1 好架构设计的标准
结构层次清晰、数据质量有保障、易扩展、易用
2 功能架构
自下而上:采集中心(采集、校验等)、存储与计算中心(计算、建模、流处理)、服务中心(数据共享)、应用中心(用户画像、位置服务)、访问中心(WEB、APP),全程的管控中心(运营、数据、系统)
3 数据架构
自下而上:原数据(结构化、非结构化、流式)、采集中心(ETL)、存储与计算中心(对数据的存储和计算)、服务中心(数据加密、脱敏等)、数据访问(报表、实时分析)
4 技术架构
自下而上:采集中心(爬虫、日志等)、存储与计算中心(批处理平台、流处理平台)、服务中心(API)、应用中心(webservice)、访问中心(CLI、html5),全程的管控中心(yarn)
网友评论