大数据

作者: 八爪鱼下水 | 来源:发表于2021-02-20 20:34 被阅读0次

cloudera manager:

简介: cloudera manger管理平台是cloudera公司推出的一款集中化管理可视化监控平台, 此平台主要是用于对cloudera推出CDH版本大数据软件进行统一化监控管理工作;

特点:

  1. 节点在五个以上使用
  2. 专业的大数据公司使用
  3. 运维工作不繁琐
  4. 免费版本不支持弹性升级

架构简介:

  1. 信号检测机制,每隔15秒报告一次,如果状态发生改变报告频率加快.
  2. 改配置会重启(有提示手动重启)
  3. 增加主机简单.
  4. 还可以管理服务器的资源

数据仓库特点

4个V

  1. 面向主题, 分析需求
  2. 集成性,资源丰富
  3. 非易失性,数据不可修改
  4. 时变性,应对数据分析方案经常需要改变.

维度分析

维度:

维度是事物的特征,分析问题的角度.

  1. 定性维度: 地区 时间 商品
  2. 定量维度: 订单在100-300之间
  3. 维度的分层,分级.
  4. 维度的上卷 和下钻: 下卷力度更细

指标:

衡量事物的标准,度量

  1. 绝对数值: count sum max min avg topn ....
  2. 相对数值: 计算比率问题,转化率,涨幅.

数仓建模

三范式建模 (OLTP系统)

关系型数据库,业务型数据库,避免冗余,一个表有一个主键

维度建模 (OLAP)

分析型数据库,更方便分析,怎么容易分析怎么来

维度建模

  1. 事实表 :
    要分析的主题是什么 , 事实表就是对应主题的表
    一般事实表都是由一坨主键(其他表)聚集组成的
    -事实表的三大分类:
事务事实表:
  • 事务事实表记录的事务层面的事实,保存的是最原子的数据,也称“原子事实表”或“交易事实表”
  • 沟通中常说的事实表,大多指的是事务事实表。
周期快照事实表:
  • 周期快照事实表以具有规律性的、可预见的时间间隔来记录事实,时间间隔如每天、每月、每年
累积快照事实表:
  • 累积快照事实表代表的是完全覆盖一个事务或产品的生命周期的时间跨度,它通常具有多个日期字段,用来记录整个生命周期中的关键时间点
  1. 维度表:
    在分析事实表的时候, 可以需要结合其他表来进行分析, 而其他的表就是维度表
    维度表的分类:
  • 高基数维度数据 : 维度表中数据量一般比较庞大, 例如商品表, 用户表
  • 低基数维度数据: 维度表中数据量一般比较小, 地区表, 日期表

维度建模数据模型

    1. 星型模型:
      特点: 只有一个事实表, 也就是说只有一个分析的主题, 在事实表周围围绕了多个维度表, 维度表与维度表没有任何的关联
      初期阶段
    1. 雪花模型:
      特点: 只有一个事实表, 也就是说只有一个分析的主题, 在事实表周围围绕了多个维度表, 维度表可以接着关联维度表
      出现畸形的时候
      这种模型会导致维护维度提升, 并且分析的SQL难度也提升, 好处 划分更加明确了
    1. 星座模型:
      特点: 有多个事实表, 也就说有多个分析的主题, 在事实表周围围绕了多个维度表, 在条件合适情况下, 多个事实表之间可以共享维度表
      一般是在 中 后 期最容易产生模型

缓慢渐变维

简介:如何处理变化的数据
SCD1: 直接覆盖, 不保存历史变更数据, 用于错误数据的处理
SCD2: 采用拉链表方案, 建表时需要多出两个字段(起始时间和结束时间)

  • 好处:
    维护简单, 利于分析
  • 弊端:
    会有冗余数据的出现
    适用于需要保存多个历史版本的场景

SCD3:
当发生数据变更后,在表中新增一个字段, 用于记录最新变更数据即可
好处:尽可能避免冗余
弊端:维护复杂, 不利于维护多个历史版本效率降低
适用于保存少量历史版本, 而且磁盘空间不足的情况下

相关文章

  • 大型网站java中间件,总的来说就是cobar,roketmq,

    关键词记录 请求数据包小,返回数据大 ,差别不大 请求数据包大,返回数据小,差别大 代理 ----》热备 服务自治...

  • 数据大屏

    一、是什么 “可视化+实时+足够大” 将数据通过可视化形式实时显示在足够大的屏幕上。如图1所示: 二、为什么(作用...

  • 数据大屏 - guandata智能数据可视化分析

    数据大屏可视化可更直观更智能的决策场景体验,通过数据大屏实时监测企业数据,洞悉运营增长,助力智能高效决策。 数据大...

  • 海量数据找前k大

    海量数据找前k大 参考1 海量数据找前k大

  • 大数据是什么

    一、大数据概念 "大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对...

  • hadoop框架学习笔记一 2020-04-01

    1.1大数据概论 主要解决海量数据存储和海量数据的分析计算问题 1.2大数据的特点 * volume(大量) *v...

  • 报告总统(下)

    一、大数据时代的数据收集、分析 大数据之所以为”大“,有两个层面:其一、数据量大,海量数据;其二、分析规模大:由于...

  • 数据分析-003-数据指标

    数据指标 "对当前业务有参考价值的统计数据。" 三大数据 我们大致可以把数据分成三大类: 用户数据、行为数据、业务...

  • 一篇文章,让你对大数据有全新的掌握

    一、大数据概念 "大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进...

  • java

    数据类型分为:8大基础数据类型和3大引用数据类型。 基础数据类型和引用数据类型的区别: 1,基本数据类型变量声明之...

网友评论

    本文标题:大数据

    本文链接:https://www.haomeiwen.com/subject/ekmxfltx.html