数据集成(Data Integration)是阿里集团对外提供的可跨异构数据存储系统的、可靠、安全、低成本、可弹性扩展的数据同步平台,为20+种数据源提供不同网络环境下的离线(全量/增量)数据进出通道,是阿里集团对外提供的稳定高效、弹性伸缩的数据同步平台。致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。
离线(批量)数据同步简介
离线(批量)的数据通道主要通过定义数据来源和去向的数据源和数据集,提供一套抽象化的数据抽取插件(称之为 Reader)、数据写入插件(称之为 Writer),并基于此框架设计一套简化版的中间数据传输格式,从而达到任意结构化、半结构化数据源之间数据传输的目的
约束与限制
支持且仅支持结构化(例如 RDS、DRDS 等)、半结构化、无结构化(OSS、TXT 等,要求具体同步数据必须抽象为结构化数据)的数据同步。换言之,Data Integration 支持传输能够抽象为逻辑二维表的数据同步,其他完全非结构化数据,例如 OSS 中存放的一段 MP3,Data Integration 暂未支持将其同步到 MaxCompute,这个功能会在后期实现。
支持单个和部分跨 region 地域内数据存储相互同步、交换的数据同步需求。
部分地域通过经典网络是可以传输的,不能保证。如果必须使用且测试经典网络不通,可以考虑使用公网方式连接。
仅完成数据同步(传输),本身不提供数据流的消费方式。
网友评论