美文网首页
日增数据方式比较

日增数据方式比较

作者: 似水之星 | 来源:发表于2019-02-19 16:57 被阅读0次

一、kafka

行方发送表数据到kafka,数据接收方从kafka把数据拉下来放到中间库中,然后再转换为orc格式数据。

优点:快(流式数据)

缺点:丢数据(内存和失效时间)、发送端和接收端需要开发(时间)。数据需要重新转换为orc。

二、sftp

行方通过sftp发送orc数据文件到文件服务器,数据接收方到中间服务器把orc数据放到hdfs上。

优点:方案简单、可控性强、不需要转换orc格式。

缺点:速度慢。

三、sqoop

行方把数据发送到中间数据库,数据接收方通过sqoop到中间数据库把数据拉取到hdfs,然后转换成orc格式。

优点:数据比较快、开发时间较短,操作简单。

缺点:会影响中间数据库的其他应用的访问。

sqoop sftp kafka
是否影响线上应用
时候需要重新转换为orc
难度
速度
脏数据敏感性
存储空间
  • 可能的问题,间隔符导致的列漂移。

相关文章

网友评论

      本文标题:日增数据方式比较

      本文链接:https://www.haomeiwen.com/subject/hwefyqtx.html