前两天看了大鱼先生写了一篇数仓中指标-标签、维度-度量、自然键-代理键的文章,对于数仓中的各种概念又有新的理解和认识。写一篇做备忘。本文主要从三组概念来进行对比说明;
先来看几个单独的概念,这几个也是数仓模型构建的前提准备
- 度量
度量是业务流程节点上的一个数值。比如:用水量、耗电量、温度等。
度量可分为:完全可加(全维度可进行计算)、半可加(部分维度可进行计算)、不可加(全维度不可进行计算,例如利率,在BI设计中,需在最上层报表中进行添加计算项) - 粒度
粒度是业务流程中对度量的统计实体。比如:用水量,按照单设备进行统计还是某一型号设备进行统计。 - 口径
口径是需求统计的范围。比如:统计近一个月某个设备的用水量,近一个月和某个设备就是对应需求的统计口径。
1. 实体表、事实表、维度表之间的关系
- 维度表
维度表是事实表的一个分析角度,存储的数据是对事实各个方面的描述。比如时间维度、地域维度、渠道维度等。 - 事实表
事实表是通过各种维度和一些指标值组合起来确定的一个事实,比如通过时间维度、渠道维度,指标值(操作电视次数)可以去确定某人何时何种方式操作多少次电视这样一个事实。 - 实体表
实体表是是一个实际对象的表,实体表中存储的数据一定是一个客观存在的事物。比如电视、冰箱、洗衣机等。
举一个例子:比如某个商店中有海尔电视、海信电视、索尼电视等,这些数据共同组成了一个电视实体表,并表中不含有可度量的数据。商店某天出售5台海尔电视、10台海信电视、1台索尼电视,这些电视销售数据就组成了一个事实表。这样从时间维度就可以对该商店的销售量进行统计分析了。
2. 指标-标签-分类-属性
- 指标
指标是某个口径的统计数值。比如近一个月某个设备的用电量。
指标分为:- 原子指标
基础业务指标,没有业务、维度限定。比如:单个设备的用电量 - 派生指标
经业务、维度限定的指标,也就是说经过一层加工的指标。比如:近一个月某个设备的用电量。 - 衍生指标
在原子或派生指标的基础上进行加工的指标。比如:某个设备用电量的环比、同比。
- 原子指标
- 标签
标签是人为设定的,根据业务场景需求以及实体的特征来进行打的标记,它是一个“has a”的问题,属于主观论范畴。比如:高用电用户、高用水用户,这些都是基于用户日常用电、用水比较多来进行的划分。
标签按标签变化分为静态和动态指标;按评估和指代的不同分为定性标签、定量标签。 - 分类
分类是按照种类、等级、性质或特征的归类,也就是把相同属性或特征的实体归集在一起,形成不同的类别,它是一个“is a”的问题,属于本质论范畴。比如:立柜空调、挂机空调。 - 属性
属性是事物所具有的性质或特性,重点强调事物本身。比如:电视32寸、42寸、64寸。其中分类也是属性之一。
举个例子:某家庭,客厅中有一个立柜空调、卧室有一个挂机空调,两种空调即为两种分类,对于空调来说也是它的属性。某个月份,该家庭用电180千瓦时,高于70%家庭用电量划分为高用电量家庭,其中180千瓦时就是指标,高用电量用户,为该家庭打上的标签。
3. 自然键-代理键-持久键
- 自然键
自然键是实体在业务中的唯一编码。比如:商品ID、家庭ID。 - 代理键
代理键是不具有业务含义的编码。在数仓中多数据来源统一编码ONEID为代理键,根据系统或业务需求,人为设计的编码。 - 持久键
持久键是永久不会改变的编码。比如:人的身份证号。
网友评论