目前大数据到我们生活各个方面,已经有了多年的实际运用。例如大数据在最早的数据营销中,针对不同的购买行为进行精准商品推送。其实大数据并不是什么新鲜事物,这几年火爆的原因是在于技术推动和业务需求。为什么这么讲?先前谈过产品差异化的指导原则:“人无我有,人有我优,人优我新,人新我化”。
这里面不管如何创新,软件实现多少是滞后于用户需求。而大数据则赋予了技术推动业务的历史使命,简单讲通过大数据,想查什么数据都可以快速获取。这里我们就带出了今天要讲的内容,数据在变现为业务价值的过程中,经历了什么事情,使得数据增值。
一、为什么要数据分层计
数据从源头开始、经过数据加减除,让给出一个分析结果。这里我们就需要进行数据加工的协作。例如我们一个人烧饭吃时,我们自己买菜、洗菜、切菜、炒菜。但到人多的时候,就像一个饭店的后厨,会有专门的人去买菜、洗菜、切菜、炒菜等工作。
数据加工的的分层指源数据、数据明细、数据汇总、专有数据,这样分层的好处:
1. 最简单的分层是两层,有利于前后端分离;
2. 有利于数据血缘追踪:例如业务使用了在逃人员汇总的业务表,但该表的来源有很多,如果一张源表出现问题,能够快速准确地定位影响范围;
3. 将复杂问题简化:将复杂的任务分解为多个步骤来完成,每一层只处理单一的步骤,比较简单和容易处理;
4. 屏蔽业务的影响,否则改一次业务就需要重新接入数据。
二、应该如何进行分层
数据中心数据仓库的数据架构需要采用分层设计:
1、买菜——临时数据层(ODS层)
就像洗菜一样,ODS全称操作数据存储,这地方通过ETL后,是洗干净的数据。例如去重(例如银行账户信息、公安局人口信息中均含有人的姓名,但是只保留一份即可)、提脏(例如有的人的银行卡被盗刷,在十分钟内同时有两笔分别在中国和日本的刷卡信息,这便是脏数据)、业务提取、单位统一、去字段(例如用于支撑前端系统工作,但是在数据挖掘中不需要的字段)、业务判别等多项工作。
2、洗菜——基础数据层
按照主题汇总的明细事实数据,这样能够确保统计口径
3、配菜——汇总数据层
为了提升专有数据层的数据生成效率,基于基础数据层进行汇总出分析事实数据。
•指标类
获得的数据按照主题建立各种数据模型。例如以研究人的旅游消费为主题的数据集中,便可以结合航空公司的登机出行信息,以及银联系统的刷卡记录,进行结合分析,产生数据集。在这里,我们需要了解四个概念:维(dimension)、事实(Fact)、指标(Index)和粒度。
•业务主题类
通过建立主题数据,对同业务数据进行汇总,例如在公安中将人、案件、地点等建立主题仓库。
4、炒菜——专有数据层
当数据准备好后,我们就开始炒菜了,成品菜就是能够直接招待客人的七荤八素等菜肴。我们通常碰到的就是当你浏览一件商品,然后给你推送类似商品的信息,就放在专有数据层。
三、通常的分层结构是什么
最后还是通过买菜、洗菜、切菜、炒菜进行结尾,大家都可以进行“数据淘金”。
买菜ODS、洗菜DMD、切菜DMS、炒菜ADM

网友评论