https://mp.weixin.qq.com/s/MyzhP-HGwNnjHeRjQk8fqQ
(1) 模型分层
(2) 模型数据流向
重构之后,
- 稳定业务按照标准的数据流向进行开发,即ODS-->DWD-->DWA-->APP。
- 非稳定业务或探索性需求,可以遵循ODS->DWD->APP或者ODS->DWD->DWT->APP两个模型数据流。
在保障了数据链路的合理性之后,又在此基础上确认了模型分层引用原则:
正常流向:ODS>DWD->DWT->DWA->APP,当出现ODS >DWD->DWA->APP这种关系时,说明主题域未覆盖全。应将DWD数据落到DWT中,对于使用频度非常低的表允许DWD->DWA。
尽量避免出现DWA宽表中使用DWD又使用(该DWD所归属主题域)DWT的表。
同一主题域内对于DWT生成DWT的表,原则上要尽量避免,否则会影响ETL的效率。
DWT、DWA和APP中禁止直接使用ODS的表, ODS的表只能被DWD引用。
禁止出现反向依赖,例如DWT的表依赖DWA的表。
- 主题划分
两类主题的划分:面向业务、面向分析。
(1) 词根
词根是维度和指标管理的基础,划分为普通词根与专有词根,提高词根的易用性和关联性。
- 普通词根:描述事物的最小单元体,如:交易-trade。
- 专有词根:具备约定成俗或行业专属的描述体,如:美元-USD。
(2) 表命名规范
通用规范
- 表名、字段名采用一个下划线分隔词根(示例:clienttype->client_type)。
- 每部分使用小写英文单词,属于通用字段的必须满足通用字段信息的定义。
- 表名、字段名需以字母为开头。
- 表名、字段名最长不超过64个英文字符。
- 优先使用词根中已有关键字(数仓标准配置中的词根管理),定期Review新增命名的不合理性。
- 在表名自定义部分禁止采用非标准的缩写。
表命名规则
表名称 = 类型 + 业务主题 + 子主题 + 表含义 + 存储格式 + 更新频率 +结尾
,如下图所示:
(3) 指标命名规范
结合指标的特性以及词根管理规范,将指标进行结构化处理。
A. 基础指标词根,即所有指标必须包含以下基础词根:
B. 业务修饰词,用于描述业务场景的词汇,例如trade-交易。
C.日期修饰词,用于修饰业务发生的时间区间。
D.聚合修饰词,对结果进行聚集操作。
E.基础指标,单一的业务修饰词+基础指标词根构建基础指标 ,例如:交易金额-trade_amt。
F.派生指标,多修饰词+基础指标词根构建派生指标。派生指标继承基础指标的特性,例如:安装门店数量-install_poi_cnt。
G.普通指标命名规范,与字段命名规范一致,由词汇转换即可以。
H.日期类型指标命名规范,命名时要遵循:业务修饰词+基础指标词根+日期修饰词/聚合修饰词。将日期后缀加到名称后面,如下图所示:
I.聚合类型指标,命名时要遵循:业务修饰词+基础指标词根+聚合类型+日期修饰词。将累积标记加到名称后面,如下图所示:
起源功能体系
数仓管理流程
数仓全景图
网友评论