大数据系统使得公司和组织可以处理越来越庞大的数据,然而,数据一般存储在多个不同的存储系统中。由于数据存储在不同的系统,其物理位置也可能不同,这样很难以高性能和高效的方式提供数据的统一聚合视图。实现数据湖是解决这个问题的一种常见解决方案,但这需要维护数据的永久副本,这可能是昂贵的。
Alluxio通过其统一的命名空间特性,方便地访问不同系统,并无缝连接计算框架和底层存储。应用程序只需要与Alluxio交互就可以访问存储在任何底层存储系统中的数据。Alluxio充当一个“虚拟数据湖”,它提供来自不同数据源的所有数据的聚合视图,并无需创建该数据的永久副本。
以下为使用Alluxio作为“虚拟数据库”的好处:
1.统一访问。应用程序只需要与一个系统和命名空间交互。其不需要关心如何访问来自不同系统的数据。应用程序可以方便地访问任何数据,只需通过全局路径标识即可。
2.不需要ETL。当应用程序需要时,Alluxio将根据需要透明地从现有存储系统中提取数据。因此,不需要显式的ETL。
3.配置管理。不同存储系统通常需要特定配置才可以访问。Alluxio存储和管理存储系统的配置,因此简化了应用程序。
4.现代,灵活的架构。Alluxio统一的命名空间促进了计算与存储的分离。这种体系结构为现代数据处理提供了极大的资源灵活性。
5.存储API独立。Alluxio支持公共存储接口,包括HDFS和S3。由于Alluxio统一的命名空间,应用程序可以通过其所需的接口访问所有数据,而不管源数据的API是什么。
6.性能。Alluxio实现了本地缓存和回收策略,以提供对重要且经常使用的数据的快速本地访问,而无需维护数据的永久副本。
网友评论