大家好,我是大D。
这篇文章跟大家一起聊下数仓中比较容易混淆的两个概念——数据域、主题域。有的公司对二者的界限并不明显,都统一称为数据域或者主题域;也有的公司两者是区分开使用的,那么数据域和主题域有什么区别呢,根据自身工作经验,聊下自己的见解。
数据域
数据域是指面向业务分析,将业务过程或者维度进行抽象的集合。它是以业务系统的角度,对业务过程进行归纳,抽象出来的数据域。
业务过程可以概括为一个个不可拆分的行为事件,比如在电商业务中店铺商品浏览、网页区块点击、加购物车、下单、订单支付、确认收货等行为事件都属于业务过程,然后对这些业务过程产生的数据进行抽象提炼,可简单理解为对这些数据分类到不同的数据域中,要求所划分的数据域既能够涵盖当前所有的业务需求,又能将一个新业务无影响地被包含进来,或者扩展出一个新的数据域。
在电商业务中,对业务系统输出的数据进行数据域划分,可以有商品域、日志域、交易域、用户域、服务域等。
商品域:商品库存、上架、下架等;
日志域:店铺商品的浏览、点击等;
交易域:加购、下单、支付、确认收货、退款等;
用户域:注册、登录、信息修改等;
服务域:申诉、投诉、纠纷、评价等。
主题域
对于数据仓库的定义是这样的,它是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
可以把数据仓库类比为图书馆,集合中的数据就是书架上摆放的书籍。一个好的数据仓库,在其中取数就应该如同在图书馆中查找书籍一样准确快速,这就要求数仓有一个良好、规范的组织结构,能够对集合中的数据进行有序、有结构地分类组织和存储。如若不然,数仓就会沦为数据沼泽,使用和维护的成本都将会很高。
而主题题域在数仓建设中则是按照数据分析应用的角度进行划分的,通常是联系较为紧密的数据主题的集合。可以根据业务的需求特点,将从业务系统划分的数据域重新划分至不同的主题域。如同图书馆面向社会不同群体的需求,对图书划分为经济类、医学类、哲学类、管理类等多个主题。
数据域与主题域区别
数据域是自下而上,以业务数据视角来划分数据,一般进行完业务系统数据调研之后就可以进行数据域的划分。
主题域则自上而下,以业务分析视角来划分数据,一般进行完业务需求调研之后才可以进行主题域的划分。
例如,商品数据域是面向数据的,对数据的分类,数据驱动业务,更好地赋能业务;商品主题域是面向主题的,根据业务需求分析,从业务驱动进行分析场景的建设。
举个更形象点的例子,建设数仓就像饭店做菜一样,数仓在面向业务系统数据根据其特点划分出数据域,如同厨房根据采购的食材特点将它们摆放在不同货架区,如肉禽区、果蔬区、调味区等。而数仓在面向业务分析根据其需求划分出主题域,如同饭店根据不同食客群体的口味需求将食材做成了不同菜系,如江浙菜、鲁菜、川菜等。
大家还有什么问题可以在下方留言,或者加入交流群一起探讨。
本文由mdnice多平台发布
网友评论