美文网首页jouypub.com
数据同步系统需要解决的问题

数据同步系统需要解决的问题

作者: JouyPub | 来源:发表于2019-05-06 10:45 被阅读2次

数据同步的方式:

  1. 直连同步:通过ODBC/JDBC等接口直连数据库,对源系统性能影响较大。
  2. 数据文件同步:简单,实用,松耦合,可加密、可压缩。
  3. 数据库日志解析同步:比如oracle的ogg,对源系统影响小。

数据同步需要解决的问题:

  1. 支持异构库同步,例如 mysql -> oracle,oracle -> mysql,mysql -> mysql等
  2. 支持跨机房同步
  3. 支持文件同步,例如日志文件
  4. 支持限速、限流,避免每日大量的同步任务同时执行时,影响主要业务的访问
  5. 支持增量同步、全量同步
  6. 支持容错、降级机制,防止同步出错时,影响后续的任务
  7. 支持双向同步
  8. 支持大数据量同步,至少TB级别数据拉取
  9. 支持二次开发,毕竟每个同步工具都不能完全满足各自公司的业务场景,特殊需求时还是要能够二次开发
  10. 能够自带管理系统,或者能够支持在系统化管理
  11. 具备报警和监控功能

几个常用的同步工具

Apache Sqoop
优点:

  • 基于 MapReduce 实现,容易并行和利用现有集群的计算资源
  • 和 Hive 兼容性好,支持 Parquet,ORC 等格式
  • 支持自动迁移 Schema
  • 社区强大,遇到的问题容易解决

缺点

  • 支持的数据源不算太丰富(比如 ES),扩展难度大
  • 不支持限速,容易对 MySQL 造成压力

阿里DataX
优点:

  • 支持的数据源丰富尤其是支持从非关系型数据库到关系型数据库的同步
  • 支持限速
  • 扩展方便,插件开发难度低
    缺点
  • 需要额外的运行资源,当任务比较多的时候费机器
  • 没有原生支持导出到 Hive,需要做很多额外的工作才能满足需求
  • 考虑到同步本身要消耗不少的计算和带宽资源,Sqoop 可以更好的利用 Hadoop 集群的资源,而且和 Hive 适配的更好,最终选择了 Sqoop 作为数据同步的工具。
欢迎订阅「K叔区块链」 - 专注于区块链技术学习
博客地址:http://www.jouypub.com
简书主页:https://www.jianshu.com/u/756c9c8ae984
segmentfault主页:https://segmentfault.com/blog/jouypub
腾讯云主页:https://cloud.tencent.com/developer/column/72548

相关文章

  • 数据同步系统需要解决的问题

    数据同步的方式: 直连同步:通过ODBC/JDBC等接口直连数据库,对源系统性能影响较大。 数据文件同步:简单,实...

  • 消息队列之kafka

    1 消息队列解决的问题 1.1 什么场景需要消息队列 多个系统之间因为数据产生了耦合 假设数据同步交流,有两种方式...

  • 使用REST API接口优化老系统数据读写操作

    为了解决老系统的数据查询问题,我们最近规划了一个数据仓库,通过定期同步数据来解决周边系统对老系统数据的查询需求。然...

  • UI数据源同步

    数据源同步问题多线程对共享数据的访问,需要考虑数据源的同步问题,如何解决tableView在多线程环境下的修改或者...

  • 干货:一文详解Redis集群原理核心内容

    集群原理 一个系统建立集群主要需要解决两个问题:数据同步问题和集群容错问题。 Naive方案 一个简单粗暴的方案是...

  • 解决chrome不能自动同步问题

    解决chrome不能自动同步问题,可以进行手动同步。 不需要删除数据,不需要关闭账户! 首先你懂得 chrome地...

  • Redis集群

    集群原理 一个系统建立集群主要需要解决两个:数据同步问题和集群容错问题。 Naive方案 一个简单粗暴的方案是部署...

  • synchronized

    1.解决的问题 解决多线程数据共享及同步 2.使用方式 2.1修饰实例方法 作用于当前实例,进入同步代码需要获取当...

  • 04sersync/lsync实时同步

    第一章 为什么需要实时同步 1.第二阶段实时同步解决了什么问题: 解决 NFS单点故障问题备份NFS数据并且提供冗...

  • 在定时任务中使用jdbcTemplate之后,上线后数据库出现死

    问题描述 项目中需要定时同步会员系统司机(会员)数据,为了简化开发,直接使用jdbcTemplate作为数据库连接...

网友评论

    本文标题:数据同步系统需要解决的问题

    本文链接:https://www.haomeiwen.com/subject/jmxroqtx.html