不知道大家有没有发现,这几年的数据领域有好多的概念,例如:大数据、人工智能、物联网、边缘计算、数据治理、数据湖、数据中台、数据可视化……。这说明数据这个领域真的很“火”,可谓是“百花齐放”!
纷至沓来的新概念在推动社会的数字化发展的同时,给相关领域的从业人员带来了一定的困惑。再加上,一些“别有用心”的厂商不遗余力的“忽悠”和“炒作”,导致了很多人的迷茫困惑、心浮气躁!
有的人一味追求新概念、新技术而脱离了业务、脱离了实际,认为新概念(例如:数据中台)能够“包治百病”,一些企业花费很大的成本买来数据中台之后才发现:在人家那儿是治病的良药,而到了你这里却成了“埋人的深坑”。所以有人叫苦道:“中台搞了2年,项目叫停,CIO被裁!本以为是个送分题,没想到是个送命题!”
面对着纷繁芜杂的新概念,面对着浩瀚的数字化海洋,面对着“厂商们”的炒作,不论是企业,还是我们这些IT从业人员,都需要保持好初心,坚守初衷。不要看:“人家都【数据中台】了,你还在做数据报表,人家都【数据湖】了,你还在搞数据仓库,人家都【人工智能】了,你还在抽数、取数”!
这里说明下,我并不是一个顽固的守旧派,也不是排斥新概念、新技术。
反而,我也非常喜欢研究一些新概念,也非常支持大家对新的概念、技术进行探索和实践。但要强调的是,企业也好,个人也好,在使用引进或使用一个新概念和新技术的同时,不要忘记问自己:我们使用它们的初衷是什么?
坚守初心,不被繁杂的概念所迷惑,才能找到适合企业或个人的数字化转型之路!
数据湖和数据中台的概念
我们先说说数据湖
数据湖概念的提出时间是仅次于大数据,可以说是一个很老的概念了。笔者认为数据湖本质上就是一个大数据平台,它随着大数据的技术不断完善,目前成熟的数据湖体系已具备了大数据存储、大数据处理、机器学习、大数据分析等等能力。
国外公司好像对数据湖情有独钟,像亚马逊的AWS、Informatica、IBM、微软等公司都有数据湖的相关产品和解决方案。而在国内,数据湖到底是个啥?他有啥用?时至今日依然存在着不少的争议。
我们再说数据中台
对于数据中台,笔者阅读了很多大咖的文章,查阅了很多资料,也没有找到关于数据中台的标准定义。
很多企业都试图给数据中台下一个标准的定义,尽管各家的说法都略有差异,并不相同,但却也有异曲同工之妙!那么,数据湖与数据中台到底有什么关系?我们不妨先看一看业界典型的数据湖和数据中台架构。
典型的数据湖和数据中台架构
1、亚马逊AWS数据湖
亚马逊AWS看来:“数据湖是一个中心数据存储的容器,这个容器可以存储格式化、非格式化的各种各样的数据;这些数据非常容易被快速缩放、有各种方法和工具对这些数据进行查询、可以做各种各样的分析”。
2、阿里系数据中台
作为“中台”的开山鼻祖——阿里巴巴的数据中台全景图如下图所示:
阿里巴巴数据中台核心内核是OneData体系,即数据中台构建的方法论体系总称,包括数据构建管理的OneModel,实现数据融通连接的OneID,再到提供统一数据服务的One
Service,贯穿于整个数据研发流程中并且通过工具实施落地,帮助企业高效建设及管理数据。
阿里巴巴数据中台
实际上阿里的数据中台并不是一套产品,而是阿里的数据中台方法论体系+生态产品。
数据湖与数据中台的关系
看过了各大厂的数据湖和数据中台,我们回过头来再来看数据湖与数据中台的关系。
大数据时代,数据量越来越多,数据形式日益复杂,而以数据仓库为代表的、现有的数据存储和处理技术无法满足海量、多样的数据处理需求的背景下产生的。“数据湖”是将复杂的事物具象化,偏技术一些,以一个形象的名字,反应了它在大数据存储和大数据处理方面的优势和能力。
数据湖作为一个集中的存储库,可以在其中存储任何形式(结构化和非结构化)、任意规模的数据。在数据湖中,可以不对存储的数据进行结构化,只有在使用数据的时候,再利用数据湖强大的大数据查询、处理、分析等组件对数据进行处理和应用。因此,数据湖具备运行不同类型数据分析的能力。
数据中台从技术的层面承接了数据湖的技术,通过数据技术,对海量、多源、多样的数据进行采集、处理、存储、计算,同时统一标准和口径,把数据统一之后,以标准形式存储,形成大数据资产层,以满足前台数据分析和应用的需求。
数据中台更强调应用,离业务更近,强调服务于前台的能力,实现逻辑、算法、标签、模型、数据资产的沉淀和复用,能更快速的相应业务和应用开发的需求,可追溯,更精准。
数据湖和数据中台哪家强?
我们都数据中台了,为什么老外还在数据湖?
随着以大数据、云计算、人工智能等新技术为主要特征的到来,大数据战略的布局和“新基建”的发展,我相信,在这场数字化的变革中,我们的技术创新能力也一定会追上!
最后,再回答网友的一个问题:数据湖与数据中台哪家强?
在笔者来看,不论是数据湖还是数据中台,都是“千人千面”的,不同的人理解不同,数据湖和数据中台也没有孰弱孰强之说。
对企业而言,不为眼花缭乱的“概念”所迷惑,一切要从实际需求出发,不能人云亦云,盲目跟风,也不能墨守成规、固步自封。
企业数据项目的建设还是应当从企业的业务需求出发构建与企业相匹配的一套数据管理和使用流程,以及与之需求相匹配的数据平台和工具。
网友评论