一、kafka
行方发送表数据到kafka,数据接收方从kafka把数据拉下来放到中间库中,然后再转换为orc格式数据。
优点:快(流式数据)
缺点:丢数据(内存和失效时间)、发送端和接收端需要开发(时间)。数据需要重新转换为orc。
二、sftp
行方通过sftp发送orc数据文件到文件服务器,数据接收方到中间服务器把orc数据放到hdfs上。
优点:方案简单、可控性强、不需要转换orc格式。
缺点:速度慢。
三、sqoop
行方把数据发送到中间数据库,数据接收方通过sqoop到中间数据库把数据拉取到hdfs,然后转换成orc格式。
优点:数据比较快、开发时间较短,操作简单。
缺点:会影响中间数据库的其他应用的访问。
sqoop | sftp | kafka | |
---|---|---|---|
是否影响线上应用 | 是 | 否 | 是 |
时候需要重新转换为orc | 是 | 否 | 是 |
难度 | 中 | 低 | 高 |
速度 | 中 | 慢 | 快 |
脏数据敏感性 | 高 | 低 | 中 |
存储空间 | 大 | 低 | 大 |
- 可能的问题,间隔符导致的列漂移。
网友评论