美文网首页
2、维度、度量、事实表、维度表、立方体cube

2、维度、度量、事实表、维度表、立方体cube

作者: 七_seven | 来源:发表于2018-06-12 16:56 被阅读0次

维度通常是一个数据记录的属性,度量是某一个维度根据特定聚合函数生成的值;group by 的属性通常就是维度,计算的值则是度量。

事实表:存储有事实记录的表,如系统日志、销售记录等,事实表的记录会不断增长。

维度表:也称查找表,是与事实表相对应的一种表;保存了维度属性值,跟事实表做关联。是对事实表上重复出现的属性抽取、规范出来用一张表进行管理。如地区、月度、年度等。

data cube:数据立方体,原始数据建立的多维度索引,可以大大加快数据的查询效率。

cuboid:某一种维度组合下所计算的数据。

cubsegment:针对源数据中的某一个片段,计算出来的cube数据,cube是按照时间顺序来构建的。

    大数据事实表按照时间梯度的增量计算生成的cube,就是cubesegment,过多的segment会影响后期查询性能,需要进行合并。

维度表设计

1、数据一致性,主键唯一性,kylin会检查,如果不唯一,会报错。

2、维度表越小越好,因为kylin会放在内存中,默认的阈值是300mb

3、改变频率低,kylin会在每次构建中试图重用维度表的快照,如果维度表经常改变,重用会失效。

4、维度表最好不要是视图,因为需要对视图物化,从而增加时间开销。

维度基数:维度在数据集中出现的不通值,如国家这个维度,如果有200个不同的值,那么此维度的基数就是200。基数超过100w的维度通常被称为超高基数维度,需要注意。

如果一个cube的超高基数维度多,那这个cube膨胀的概率会很高。

相关文章

  • pentaho 一些概念

    cube/立方体: 是一种有名称的度量和维度的集合。度量和维度的共同点是事实表,事实表中保存了要被计算的度量,并且...

  • 2、维度、度量、事实表、维度表、立方体cube

    维度通常是一个数据记录的属性,度量是某一个维度根据特定聚合函数生成的值;group by 的属性通常就是维度,计算...

  • 数据仓库的学习

    事实表、维度表、维度、度量 事实表:一般为具有可统计量化的信息的表。如订单表适合作为事实表,其中有订购数量、订单金...

  • 数据仓库中数据如何准备,处理,发布,展现

    子系统十三:事实表生成系统 事实表拥有组织的度量。维度模型将围绕这些数字度量构建。事实表生成系统关注ETL结构化需...

  • Hive维度模型设计

    维度模型设计: 1.选择业务过程 2.声明粒度 3.确认维度 4.确认事实 维度表概述: 维度表是事实表不可或缺的...

  • 第九章 事实表设计之事实表基础

    事实表特性 1)事实表描述了业务过程,包含引用的维度和业务的度量,与维度表相比数据量大得多,增长速度快得多 2)描...

  • 数据仓库(08)数仓事实表和维度表技术

    所谓的事实表和维度表技术,指的就是如何和构造一张事实表和维度表,是的事实表和维度表,可以涵盖现在目前的需要和方便后...

  • 数据建模-事实表

    事实表基础 事实表特性 事实表作为数据仓库维度建模的核心,紧紧围绕着业务过程来设计,通过获取描述业务过程的度量来表...

  • 数据仓库-高级事实表技术-读书笔记五

    事实表代理键1,可以用作所有维度表的主键2,单列代理事实键,不与任何维度关联的事实表代理键作用一:作为事实表的唯一...

  • 维度退化

    什么是维度退化? 将维度退化到事实表中,减少事实表和维度表的关联 在维度建模的数据仓库中,有一种维度叫Degene...

网友评论

      本文标题:2、维度、度量、事实表、维度表、立方体cube

      本文链接:https://www.haomeiwen.com/subject/gvkreftx.html