1.数据仓库是什么?
数据仓库是一个从多个数据源收集的信息存储,存放在一个一致的模式下,并通常驻留在单个站点。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新构造。
2.数据仓库模型
最常见的模型范例星形模式;其中数据仓库包括(1)一个大的、包含大批数据、不 含冗余的中心表(事实表);(2)一组小的附属表(维表),每维一个。这种模式图很象星星爆发,维表围绕中心表显示在射线上
事实星座:复杂的应用可能需要多个事实表共享维表。
一般地,数据仓库的设计过程包含如下步骤:
1选取待建模的商务处理,例如,订单、发票、出货、库存、记帐管理、销售、和一般分类帐。
如果一个商务过程是有组织的,并涉及多个复杂的对象,应当选用数据仓库模型。然而,如果处理是部门的,并关注某一类商务处理,则应选择数据集市。
2选取商务处理的粒度。对于处理,该粒度是基本的、在事实表中是数据的原子级。例如,单个事务、一天的快照等。
3选取用于每个事实表记录的维。典型的维是时间、商品、顾客、供应商、仓库、事务类型和状态。
4选取将安放在事实表中的度量。典型的度量是可加的数值量,如dollars_sold和units_sold。
3.数据集市
数据集市(Data Mart,DM),DM介于BI展现层和DW数据底层之间,是数据仓库的数据子集。是针对某个部门的小数据集。
4.标签数据层
标签根目录、标签类目、标签和标签值。
标签按照产生和计算方式不同可分为属性标签、统计标签、算法标签。
对象的属性标签、统计标签、算法标签与对象标签类目、对象标识组装起来就生成对象标签表。
可把对象分为“人”“物”“关系”三大类。
一般会给每个对象设置一个超级ID,比如SUPER-ID作为唯一识别该对象的标识码,业务系统中不同的对象标识ID都通过一定的算法规则与这个SUPER-ID打通,进而完成对象所有业务标识ID的打通。通过ID-ID间的两两映射,打通整个ID关系,大数据领域中的ID-Mapping技术就是用机器学习算法来取代野蛮计算。
电商行业中的物品可以细分为“商品”或“服务”等,进而构建商品标签类目体系、服务标签类目体系。
5.应用数据层
应用数据层整体而言是构建在统一数仓层与标签数据层之上的简单数据组装层
6.数据资产
数据资产划分成主数据、业务数据、分析数据三个主要的数据域
7.报表形态
二维表,交叉表,仪表盘,驾驶仓,套打表
8.报表的应用架构
oltp,olap
9.报表设计
定义观察指标,设计呈现方式,跟踪指标变化,分析变动原因,跟进处理问题。
其中报表引擎如smart bi可以设计样式
网友评论