美文网首页
数仓模型建设

数仓模型建设

作者: 傻疯子 | 来源:发表于2021-12-27 23:03 被阅读0次

为了防止数仓模型的混乱建设需要通过一些约定和规范进行建设。

建设要求

1.统一ods层的建设,一次数据只接入一次,防止重复接入,并进行命名规范,如ods_database_table,ods表明层级,databasese是对接数据库的数据库名,table是接入的业务表表名。

2.划分业务过程,构建主题域,构建总线矩阵。先构建业务主题域,如数据指标里面提过的视频、创作者、观看用户、流量、弹幕、评论等。然后再划分一些具体的业务过程,如将视频划分为点击视频、观看视频、收藏视频、转发视频等,然后再列举业务过程的可分析维度,比如用户类型,省份,流量来源等。

3.构建统一的维度属性。整合出一些维度属性表,比如视频就内容可以分为游戏、娱乐、知识、鬼畜、科技、生活等等。然后可以根据维度表的一些属性或者实际情况存储在不同的维度表中。维度表的命名一般为dim_topic_describe_partition,dim表明是维度表,topic表明维度表属于的主题域,describe是对维度表的描述,partition是分区规则,分区即可以按天、按周、按年增量存储,也可以每天、每周或每月保存全量数据,还可以是不定期更新的表。

4.整合事实表,根据主题域将事实表统计粒度一致的情况可以进行合并,后面层级的表不允许跨过dwd表直接通过ods表建立,无法通过现有的dwd表则需要建立新的。并且从dwd划分完主题域开始数仓命名的方式都应该为:层级主题子主题业务分区规则。

5.任务建立。任务依赖关系或者数据检查需要正确建立,防止出现前面需要的任务没跑完就进行后面的任务;同时任务名与表明一致方便排查;中间用到的临时表注意要删除;对表建立保存时间,一般ods和dwd全量保存,dwd进行压缩,其它的表要到期删除。

数仓模型建设的工具

数仓模型建设的工具需要依赖于元数据中心,通过数据血缘进行数仓模型的分析,包括跨层引用和复用率的指标。同时需要能管理模型的主题域、分层和业务过程以及维度表的相关管理。

通过这个工具可以反映数仓模型的整体情况和作为数据模型的字典。

相关文章

  • 数仓模型建设

    为了防止数仓模型的混乱建设需要通过一些约定和规范进行建设。 建设要求 1.统一ods层的建设,一次数据只接入一次,...

  • 数仓建设规范

    本文将全面讲解数仓建设规范,从数据模型规范,到数仓公共规范,数仓各层规范,最后到数仓命名规范,包括表命名,指标字段...

  • 数仓建设二期规划大纲

    数仓一期建设并上线一段时间,领导安排我考虑一下数仓二期的建设。 一期简介 一期是按照标准数仓模型建设的,主要包括原...

  • 离线数仓从0到1

    话聊建设数仓 ETL工具面临的问题 分层分层的出发点分层设计 模型建设为什么要建设模型怎么建设模型理清工作思路实施...

  • 实时数仓模型设计

    本文参考了部分互联网公司的实时数仓模型,结合目前所掌握的数仓建设的知识,简单介绍一下如何建设一个实时数仓。 一、实...

  • 数仓模型的常见问题

    数仓建设的模型主要可以归为三类问题,完善性、可复用性、规范性。 完善性主要是指数仓建设是否完善,是不是有跨层引用的...

  • 数据仓库高级工程师面试(转载)

    思想和方法论: 如何建设数仓,如何构建主题域 缓慢变化维 几种处理方式 什么是维度建模,星型模型与雪花模型的区别 ...

  • 数仓建设规范

    1、数仓分层原则 优秀可靠的数仓体系,往往需要清晰的数据分层结构,即要保证数据层的稳定又要屏蔽对下游的影响,并且要...

  • 数仓建设困惑

    数据分散,急需一个数仓进行统一管理,可喜的是,之前团队有研发过一个小型数仓,虽然只是做了数据简单集中,但是针对当前...

  • 企业何时进行数据治理才是最佳时机

    找准数据治理的切入点,是关乎数据治理成败的关键。如果将数仓建设分为数仓雏形阶段、数仓迭代阶段和能力沉淀阶段,数据治...

网友评论

      本文标题:数仓模型建设

      本文链接:https://www.haomeiwen.com/subject/qofuqrtx.html