美文网首页
01.数仓常见概念术语

01.数仓常见概念术语

作者: 木讷DATA | 来源:发表于2021-10-15 22:53 被阅读0次

前两天看了大鱼先生写了一篇数仓中指标-标签、维度-度量、自然键-代理键的文章,对于数仓中的各种概念又有新的理解和认识。写一篇做备忘。本文主要从三组概念来进行对比说明;
先来看几个单独的概念,这几个也是数仓模型构建的前提准备

  1. 度量
    度量是业务流程节点上的一个数值。比如:用水量、耗电量、温度等。
    度量可分为:完全可加(全维度可进行计算)、半可加(部分维度可进行计算)、不可加(全维度不可进行计算,例如利率,在BI设计中,需在最上层报表中进行添加计算项)
  2. 粒度
    粒度是业务流程中对度量的统计实体。比如:用水量,按照单设备进行统计还是某一型号设备进行统计。
  3. 口径
    口径是需求统计的范围。比如:统计近一个月某个设备的用水量,近一个月和某个设备就是对应需求的统计口径。

1. 实体表、事实表、维度表之间的关系

  • 维度表
    维度表是事实表的一个分析角度,存储的数据是对事实各个方面的描述。比如时间维度、地域维度、渠道维度等。
  • 事实表
    事实表是通过各种维度和一些指标值组合起来确定的一个事实,比如通过时间维度、渠道维度,指标值(操作电视次数)可以去确定某人何时何种方式操作多少次电视这样一个事实。
  • 实体表
    实体表是是一个实际对象的表,实体表中存储的数据一定是一个客观存在的事物。比如电视、冰箱、洗衣机等。

举一个例子:比如某个商店中有海尔电视、海信电视、索尼电视等,这些数据共同组成了一个电视实体表,并表中不含有可度量的数据。商店某天出售5台海尔电视、10台海信电视、1台索尼电视,这些电视销售数据就组成了一个事实表。这样从时间维度就可以对该商店的销售量进行统计分析了。

2. 指标-标签-分类-属性

  • 指标
    指标是某个口径的统计数值。比如近一个月某个设备的用电量。
    指标分为:
    • 原子指标
      基础业务指标,没有业务、维度限定。比如:单个设备的用电量
    • 派生指标
      经业务、维度限定的指标,也就是说经过一层加工的指标。比如:近一个月某个设备的用电量。
    • 衍生指标
      在原子或派生指标的基础上进行加工的指标。比如:某个设备用电量的环比、同比。
  • 标签
    标签是人为设定的,根据业务场景需求以及实体的特征来进行打的标记,它是一个“has a”的问题,属于主观论范畴。比如:高用电用户、高用水用户,这些都是基于用户日常用电、用水比较多来进行的划分。
    标签按标签变化分为静态和动态指标;按评估和指代的不同分为定性标签、定量标签。
  • 分类
    分类是按照种类、等级、性质或特征的归类,也就是把相同属性或特征的实体归集在一起,形成不同的类别,它是一个“is a”的问题,属于本质论范畴。比如:立柜空调、挂机空调。
  • 属性
    属性是事物所具有的性质或特性,重点强调事物本身。比如:电视32寸、42寸、64寸。其中分类也是属性之一。

举个例子:某家庭,客厅中有一个立柜空调、卧室有一个挂机空调,两种空调即为两种分类,对于空调来说也是它的属性。某个月份,该家庭用电180千瓦时,高于70%家庭用电量划分为高用电量家庭,其中180千瓦时就是指标,高用电量用户,为该家庭打上的标签。

3. 自然键-代理键-持久键

  • 自然键
    自然键是实体在业务中的唯一编码。比如:商品ID、家庭ID。
  • 代理键
    代理键是不具有业务含义的编码。在数仓中多数据来源统一编码ONEID为代理键,根据系统或业务需求,人为设计的编码。
  • 持久键
    持久键是永久不会改变的编码。比如:人的身份证号。

参考 大鱼的数据人生五分钟学大数据

相关文章

  • 01.数仓常见概念术语

    前两天看了大鱼先生写了一篇数仓中指标-标签、维度-度量、自然键-代理键的文章,对于数仓中的各种概念又有新的理解和认...

  • 基金常用术语

    基金常见的术语有:申购、赎回、定投、建仓、持仓、加仓、补仓、满仓、半仓、重仓、轻仓、空仓、平仓、做多、做空、踏空、...

  • 数仓概念-hive 数仓简介

    什么是数仓? 数据仓库 datawarehouse DW(DWH) 是一个 向分析的集成化的数据分析平台,分析结果...

  • 数仓基础概念

    数据仓库 什么是数据仓库? 数据仓库,英文名称为Data Warehouse,关于数据仓库概念的标准定义业内认可度...

  • 【理论+实战知识】数据仓库建设保姆级5W字教程1

    一、数仓基本概念 1、数据仓库架构 我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,“架构”是什么?这个...

  • 数仓建设保姆级教程,离线和实时理论+实战)

    文档大纲: 一、数仓基本概念 1. 数据仓库架构 我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,“架构...

  • 用户行为数仓搭建

    # 数仓分层概念 1.数仓分层 ods 存放原始数据 dwd 数据清洗 dws 数据汇总 ads 为统计报表提供数...

  • 数仓CUBE操作术语备忘

    SLICE (切片)将某一个(或多个)维度上的值锁定,只观察当这个维度取这个值时的情形,相当于将一个立方体做了一个...

  • 盘口术语

    看盘中常见术语解析 对于初学者,首先需要了解这些概念,既是入门,也是必备。下面对这些术语按常见程度、难易程度,循序...

  • 数仓实战01:数仓分层

    1.为什么分层 1.1 数仓分层: 1.2 为什么分层 2.数据集市和数据仓库概念 3.数仓命名规范 3.1 表命...

网友评论

      本文标题:01.数仓常见概念术语

      本文链接:https://www.haomeiwen.com/subject/oefvoltx.html