数据湖

作者: 听雪10 | 来源:发表于2022-02-13 11:10 被阅读0次

一、什么是数据湖

AWS定义:
数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。
微软定义:
数据湖包括一切使得开发者、数据科学家、分析师能更简单的存储、处理数据的能力,这些能力使得用户可以存储任意规模、任意类型、任意产生速度的数据,并且可以跨平台、跨语言的做所有类型的分析和处理。数据湖在能帮助用户加速应用数据的同时,消除了数据采集和存储的复杂性,同时也能支持批处理、流式计算、交互式分析等
(为什么不叫河?河水流入大海,没有沉淀,为什么不叫海?海没有边界,也不方便管理)

二、为什么会产生数据湖

数仓向数据湖的发展,主要是由于数据多样性的出现(非结构化数据)和企业对数据使用的升级(由报表BI到自由探索挖掘)

三、数据湖特征

从数据方面来看:

保真性
数据湖中对于业务系统中的数据都会存储一份“一模一样”的完整拷贝
多样性
支持存储任意类型/格式的数据
灵活性
读取型schema
可管理
应该提供完善的数据管理能力,如数据源、数据连接、数据格式、数据schema(库/表/列/行),还要有一定的权限管理能力。
可追溯
对其间的任意一条数据的接入、存储、处理、消费过程是可追溯的,能够清楚的重现数据完整的产生过程和流动过程

从计算方面来看:

丰富的计算引擎
批处理、流式计算、交互式分析能力、机器学习
多模态的存储引擎

四、数据湖架构

传统大数据平台架构演进:
hadoop架构——>lambda架构——>Kappa架构
Lambda架构:多套系统(流式计算层、批处理计算层)维护困难,灵活性较低。
1、需要维护流式计算层和批处理计算层两种框架,两种框架的差异性造成了极大的维护成本。
2、两种计算框架的实现的差异造成了需要维护不同的代码来服务两层应用,增加开发和维护成本。
3、由于两种模式提供的状态差异,需要为批处理和流处理提供不同的服务层,并在这个上面再做合并抽象,或者设计应用一个相当复杂的服务系统。
4、数据存在多个不同的源中,容易造成数据的不一致出现。

Kappa架构:消息中间件回放困难,并且无法利用到传统数仓的优化技术。
1、消息中间件缓存的数据量和回溯数据有性能瓶颈。举个例子,假定算法需要过去180天的数据,如果都存在消息中间件,无疑有非常大的压力。同时,一次性回溯订正180天级别的数据,对实时计算的资源消耗也非常大。
2、在实时数据处理时,遇到大量不同的实时流进行关联时,非常依赖实时计算系统的能力,很可能因为数据流先后顺序问题,导致数据丢失。同时OLAP分析性能低下,无法利用到列裁剪、谓词下推、向量化等现代引擎的常用优化手段

典型数据湖架构:分布式对象存储+多模态计算引擎+数据管理

image.png

五、数仓与数据湖的区别

数据仓库和数据湖,代表着两种数据处理模式和服务模式。
数仓复用性高但灵活性差,无法提取原始数据最大价值。开发人员从数据存储到模型加工,同时维护数据流和工具流,将数据提供给应用人员。
数据湖灵活性高,但属于烟囱式开发,资源浪费比较大。开发人员只负责将最原始数据扔进数据湖,然后提供数据湖相关处理工具给应用人员。


六、数湖一体:

1、湖和仓的数据/元数据无缝打通,互相补充,数据仓库的模型反哺到数据湖(成为原始数据一部分),湖的结构化应用知识沉淀到数据仓库。
2、湖和仓有统一的开发体验,存储在不同系统的数据,可以通过一个统一的开发/管理平台操作。
3、数据湖与数据仓库的数据,系统可以根据自动的规则决定哪些数据放在数仓,哪些保留在数据湖,进而形成一体化


七、数据湖工具

Iceberg, Hudi, Delta Lake

iceberg

Iceberg是一个通用的表格式(数据组织格式),它可以适配Presto,Spark等引擎提供高性能的读写和元数据管理功能。Iceberg的定位是在计算引擎之下存储之上。它是一种数据存储格式,Iceberg称其为"table format"。准确的说,它是介于计算引擎和数据存储格式之间的数据组织格式 - 通过特定的方式将数据和元数据组织起来,因此称之为数据组织格式更为合理,而Iceberg将其定义为表格式也直观地反映出了它的定位和功能



iceberg的出现:为解决数据湖解决方案中关键的一个环节,数据存储和计算引擎之间的适配

特性

ACID
读写分离
隐式分区

资料参考:
https://mp.weixin.qq.com/s/HOCb_-8m_fpvKyiLWXE5kA
https://mp.weixin.qq.com/s/0Iv2fUygX6b4uRqW_LeTrg

相关文章

网友评论

      本文标题:数据湖

      本文链接:https://www.haomeiwen.com/subject/xojflrtx.html