数仓入门基础-7-数仓规范

作者: 乌拉乌拉儿 | 来源:发表于2019-07-24 00:48 被阅读0次

数仓规范,看似是无关紧要,实则是数仓实施最重要要素,也是衡量数仓标准的重要条件,有了规范,才能尽可能避免一些坑。

1.模型分层
数仓入门基础-5-数仓建模

2.表命名规范
ods层:数据引入层
日志类非结构化表:ods_[数据域]_ [自定义内容]_ [刷新频率]
业务库结构化同步表:ods_[数据域]_ [业务库名]_ [表名]_[刷新频率]

dwd层:明细数据层
dwd_[数据域] _[自定义内容] _[粒度] _[刷新频率]

dws层:公共汇总层
dws_{数据域}_[主题域] _[自定义内容] _[粒度] _[刷新频率]

ads层: 数据应用层
ads_{数据域}_ [自定义内容]_ [粒度]_[刷新频率]

组合标记 标记含义
ma 按月分区全量更新
mi 按月分区增量更新
da 按天分区全量更新
di 按天分区增量更新
ha 按小时分区全量更新
hi 按小时分区增量更新

3.字段规范
3.1命名

  • 小写
  • 下划线分割
  • 可读性优于长度
  • 数量字段后缀 _cnt等标识...
  • 金额字段后缀 _price 标识
  • 禁止使用sql关键字

3.2字段格式

  • 浮点数使用decimal(28,6)控制精度等

3.3 NULL字段处理

  • 对于维度字段,需设置为-1
  • 对于指标字段,需设置为0

4.外部表规范

  • 使用hive外部表,避免误操作行为
  • 压缩方式,使用orc、parquet文件格式 gz压缩 等

5.口径规范
保证主题域内,指标口径一致,无歧义

相关文章

  • 数仓入门基础-7-数仓规范

    数仓规范,看似是无关紧要,实则是数仓实施最重要要素,也是衡量数仓标准的重要条件,有了规范,才能尽可能避免一些坑。 ...

  • 数仓建设规范

    本文将全面讲解数仓建设规范,从数据模型规范,到数仓公共规范,数仓各层规范,最后到数仓命名规范,包括表命名,指标字段...

  • 数仓规范

    转自: https://mp.weixin.qq.com/s/mGkYRj8iV5_QvNMjS7bpIQ[htt...

  • 数仓入门基础-1-漫谈数仓

    百度百科的定义: 数据仓库,英文名称为Data Warehouse,可简写为DW[https://baike.ba...

  • 数仓入门基础-6-数仓建模

    个人博客:https://renwula.github.io/,本系列基于互联网公司数仓,使用hive搭建数仓 ...

  • 数仓基础

    业务流程 三户模型 客户、账户、用户 产品模型 品牌->营销方案->新业务、促销活动 账户模型 数据仓库项目实施矩...

  • 数仓建设规范

    1、数仓分层原则 优秀可靠的数仓体系,往往需要清晰的数据分层结构,即要保证数据层的稳定又要屏蔽对下游的影响,并且要...

  • 数仓入门基础-3-数仓方法论

    三范式(3NF): 第一范式[https://baike.baidu.com/item/%E7%AC%AC%E4...

  • 数据仓库开发规范

    00背景 规范约束是数仓建设的全流程,以及后续的迭代和运维的参照。事实上,数仓规范文档,应该随着架构设计文档,在数...

  • 【知识】可实操使用的数仓建设规范指南

    目录: 一、数据模型架构原则数仓分层原则主题域划分原则数据模型设计原则 二、数仓公共开发规范层次调用规范数据类型规...

网友评论

    本文标题:数仓入门基础-7-数仓规范

    本文链接:https://www.haomeiwen.com/subject/nvizlctx.html