在数据工程领域,我们经常听到所谓的零ETL方法,但这到底是什么?
定义
Zero ETL 方法是一种构建数据管道的方法,旨在消除对传统提取、转换和加载 (ETL) 过程以及用于执行这些过程的工具的需求。这种方法基于这样一种思想,即数据应该在源系统中存储和处理,甚至只是在源系统中进行分析,例如使用原始格式的SQL,而无需复杂的数据转换或移动。
image.png好处
归根结底,这意味着现代基于云的数据仓库、数据湖甚至数据湖使用大型云提供商的集成服务来分析来自其他来源的数据。因此,与其从SQL或NoSQL数据库中过滤数据,处理然后将其放入数据湖或数据仓库等两次,不如直接轻松访问数据(通常只需通过SQL)。这有几个优点,例如:
image.png- 构建数据管道的工作量更少,尤其是以前对它们进行编程的工作量。
- 没有双重现有的数据存储,这不必要地占用资金并导致性能下降。
- 在某些情况下,可能也没有像talend,alteryx&Co.这样的昂贵数据集成解决方案。
- Zero ETL方法的另一个主要好处是,它允许组织实时处理数据,而不是等待数据被提取、转换和加载到单独的系统中。
挑战
有了所有这些好处和更少的数据集成工作,人们自然会问:数据工程师不再需要了吗?数据科学家很快就能自己提供数据吗?
仍然需要数据工程师,但他们的活动领域可能会发生变化。例如,Zero ETL方法的最大挑战之一是它需要大量的前期规划和设计。组织,尤其是数据工程师,在实施 Zero ETL管道之前,需要考虑其数据架构、处理要求和可扩展性。此外,后续流程仍然需要数据转换和聚合逻辑。例如,如果数据直接从源进行分析或未转换加载,则仍必须使用视图逻辑为数据分析师和最终用户准备数据。
image.png总结
通过这种方式,Zero ETL方法实际上确保了集成数据时的工作量更少,最重要的是,由于重复数据存储较少,并且在必要时无需其他工具,还可以带来成本优势。然而,为了使数据最终可用于用例,仍然需要付出努力。
网友评论