cloudera manager:
简介: cloudera manger管理平台是cloudera公司推出的一款集中化管理可视化监控平台, 此平台主要是用于对cloudera推出CDH版本大数据软件进行统一化监控管理工作;
特点:
- 节点在五个以上使用
- 专业的大数据公司使用
- 运维工作不繁琐
- 免费版本不支持弹性升级
架构简介:
- 信号检测机制,每隔15秒报告一次,如果状态发生改变报告频率加快.
- 改配置会重启(有提示手动重启)
- 增加主机简单.
- 还可以管理服务器的资源
数据仓库特点
4个V
- 面向主题, 分析需求
- 集成性,资源丰富
- 非易失性,数据不可修改
- 时变性,应对数据分析方案经常需要改变.
维度分析
维度:
维度是事物的特征,分析问题的角度.
- 定性维度: 地区 时间 商品
- 定量维度: 订单在100-300之间
- 维度的分层,分级.
- 维度的上卷 和下钻: 下卷力度更细
指标:
衡量事物的标准,度量
- 绝对数值: count sum max min avg topn ....
- 相对数值: 计算比率问题,转化率,涨幅.
数仓建模
三范式建模 (OLTP系统)
关系型数据库,业务型数据库,避免冗余,一个表有一个主键
维度建模 (OLAP)
分析型数据库,更方便分析,怎么容易分析怎么来
维度建模
- 事实表 :
要分析的主题是什么 , 事实表就是对应主题的表
一般事实表都是由一坨主键(其他表)聚集组成的
-事实表的三大分类:
事务事实表:
- 事务事实表记录的事务层面的事实,保存的是最原子的数据,也称“原子事实表”或“交易事实表”
- 沟通中常说的事实表,大多指的是事务事实表。
周期快照事实表:
- 周期快照事实表以具有规律性的、可预见的时间间隔来记录事实,时间间隔如每天、每月、每年
累积快照事实表:
- 累积快照事实表代表的是完全覆盖一个事务或产品的生命周期的时间跨度,它通常具有多个日期字段,用来记录整个生命周期中的关键时间点
- 维度表:
在分析事实表的时候, 可以需要结合其他表来进行分析, 而其他的表就是维度表
维度表的分类:
- 高基数维度数据 : 维度表中数据量一般比较庞大, 例如商品表, 用户表
- 低基数维度数据: 维度表中数据量一般比较小, 地区表, 日期表
维度建模数据模型
- 星型模型:
特点: 只有一个事实表, 也就是说只有一个分析的主题, 在事实表周围围绕了多个维度表, 维度表与维度表没有任何的关联
初期阶段
- 星型模型:
- 雪花模型:
特点: 只有一个事实表, 也就是说只有一个分析的主题, 在事实表周围围绕了多个维度表, 维度表可以接着关联维度表
出现畸形的时候
这种模型会导致维护维度提升, 并且分析的SQL难度也提升, 好处 划分更加明确了
- 雪花模型:
- 星座模型:
特点: 有多个事实表, 也就说有多个分析的主题, 在事实表周围围绕了多个维度表, 在条件合适情况下, 多个事实表之间可以共享维度表
一般是在 中 后 期最容易产生模型
- 星座模型:
缓慢渐变维
简介:如何处理变化的数据
SCD1: 直接覆盖, 不保存历史变更数据, 用于错误数据的处理
SCD2: 采用拉链表方案, 建表时需要多出两个字段(起始时间和结束时间)
- 好处:
维护简单, 利于分析 - 弊端:
会有冗余数据的出现
适用于需要保存多个历史版本的场景
SCD3:
当发生数据变更后,在表中新增一个字段, 用于记录最新变更数据即可
好处:尽可能避免冗余
弊端:维护复杂, 不利于维护多个历史版本效率降低
适用于保存少量历史版本, 而且磁盘空间不足的情况下
网友评论