这几天在看一本介绍数据中台的书,今天花了两个小时看完了这本书。当然我这次写的关于对数据中台的理解不是这本书的读书分享或者书评。只是看了这本书,让我想起了以前做的产品,做产品的经历。虽然那个时候还不叫数据中台,但是理念都基本一致。
数据中台的概念是这几年由互联网公司发展起来的产品,因为互联网公司数据量大,数据实时性要求较高,业务可扩展性要求高,所以需要基于底层数据构建数据平台适应各种业务发展的需要。
在传统的tob业务里,很多政府机构很早之前也在构建基于数据的数据资源服务平台(对应互联网公司的数据中台)。机构内部各个组织都有各自的独立系统,烟囱建设,数据孤立。业务上虽然各自组织自成一体,但是当需要在业务上进行串联时,就会发现数据各自在各自的部门无法进行共享。有的组织内部会采用管理的方式从数据源部门拷贝一份数据过来,当然这里有很多问题,不仅仅是技术本身的问题,还存在各部门之间的组织协调,内部管理的问题。基于这样的需求机构内部需要进行数据共享,数据管理,数据服务。最终做到数据的可用,不可见(这里的不可见指的是不能拷贝一份带走。)
数据资源服务平台(数据中台)最终要实现:
(一)数据的集成
马云把现在的时代比喻为DT时代,DT时代最终要的是数据,当各个部门形成了自己的业务系统以后,数据都沉淀在各个部门,而数据中台需要做的第一件事情就是需要把分散在各个部门的数据采集到数据中台,在采集的过程中对数据进行清洗、去除噪音、去重等工作。那么在实现上需要平台具备:
1.对各种数据源适配的能力。比如:传统的oracle mysql sqlserver 等,还有就是kafka hbase 以及一些大厂的平台等。可以对这些组件,平台中的数据进行加载。提供界面化的工具。
2.对各种数据进行实时和定时的操作,并可以监控数据的执行过程和结果。
(二)数据的管理
数据从分散的部门通过数据采集能力进入到数据中台,进入数据中台的数据需要做数据的治理,通过数据治理提升数据治理。对数据进行数据的资产分类形成数据资产地图。让数据最终做到可用、可见、可懂。
1.做到数据的可用,通过建立全局统一的数据标准对数据进行治理形成高质量的数据。数据科学家和数据分析人员没有后顾之忧,放心使用数据资产,降低因为数据不可用、不可信而带来的沟通成本和管理成本。
2.做到数据的可见,提升数据质量以后数据可以被业务人员使用,可是怎么使用呢?通过对数据资产的全面盘点,形成数据资产地图。针对数据生产者、管理者、使用者等不同的角色,用数据资产目录的方式共享数据资产,用户可以快速、精确地查找到自己关心的数据资产。
3.做到数据的可懂,对于数据的使用者,如果看到了数据,看到了数据结构,而不知道他们表达的意思,数据无法有效使用。通过元数据管理,完善对数据资产的描述。同时在数据资产的建设过程中,注重数据资产业务含义的提炼,将数据加工和组织成人人可懂的、无歧义的数据资产。
(三)数据的服务化
数据的价值最终体现在数据的使用上,数据只有在业务中产生价值才是真正的价值。将数据变成资产的目的就是通过资产升值变现来提供价值,提供数据升值的方式就是数据服务化。
数据服务是对数据进行计算逻辑的封装(过滤查询、多维分析和算法推理等计算逻辑),生成API服务,上层数据应用通过数据服务API获取数据需求。
数据服务需要提供查询服务、分析服务、模型算法服务。平台可以通过配置的方式实现这些服务,同时平台提供对服务的监控、审计、权限管理以及流量管控。
查询服务,是数据中台提供的最基础的业务服务,平台通过平台配置对平台中表中的数据进行服务发布。
分析服务,通过关联资产表中的数据对表之间的数据进行关联分析、比对等。
模型算法服务,面向的对象是算法模型,主要通过界面配置方式将算法模型一键部署为在线API,支撑智能应用和业务。
以上是我对数据中台简单的归纳和理解。
![](https://img.haomeiwen.com/i17040424/7eb207506d377b2c.jpg)
网友评论