美文网首页
DataX大数据量同步优化方案

DataX大数据量同步优化方案

作者: 风筝flying | 来源:发表于2021-08-31 09:21 被阅读0次

现状

使用DataX从生产DB拉取数据时,正常的业务场景我们都是通过增量拉取做Merge的方式来限制抽取的数据量,但存在以下几种情况需要做大数据量的同步:

  • 大表全量初始化
  • 生产表存在物理删除,需要每天做全量同步
  • 日志表,每天即使增量,仍然会有大量数据

虽然同步数据都是从生产DB的slave节点取数,但大数据量的同步,长时间访问也可能会导致Slave节点的性能下降。

方案

  • 获取生产表主键列(要求是数值类型,否则取datachange_lasttime)的最大值/最小值
  • 指定分批次数,通过上述的最值的差计算出单次步长,分批同步至Hive

相关文章

  • DataX大数据量同步优化方案

    现状 使用DataX从生产DB拉取数据时,正常的业务场景我们都是通过增量拉取做Merge的方式来限制抽取的数据量,...

  • DataX 3.0简介 安装及使用

    DataX3.0离线同步工具介绍 一. DataX3.0概览 ​DataX 是一个异构数据源离线同步工具,致力于实...

  • dataX是阿里开源的离线数据库同步工具的使用

    dataX是阿里开源的离线数据库同步工具的使用 DataX介绍: DataX 是阿里开源的一个异构数据源离线同步工...

  • DataX Web使用体验入门

    一、DataX Web是什么 DataX web是在DataX的基础上开发的分布式的数据同步工具,方便DataX的...

  • 开源数据同步工具——datax

    开源数据同步工具——datax DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQ...

  • mysql深入篇

    目录 优化篇 学习 优化 慢查询优化,我终于在生产踩到了这个坑!! 学习 数据量很大,分页查询很慢,有什么优化方案...

  • DataX使用

    参考:阿里云开源离线同步工具DataX3.0介绍https://github.com/alibaba/DataX/...

  • DataX 数据全量,增量同步方案

    关于DataX 增量更新实现 注:参考来源文章 增量更新总体思路:从目标数据库读取一个最大值的记录,可以是Data...

  • 使用datax的RDBMSReader抽取hive表

    datax简介 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle...

  • DataX及DataX-Web使用教程

    DataX介绍 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle...

网友评论

      本文标题:DataX大数据量同步优化方案

      本文链接:https://www.haomeiwen.com/subject/nroailtx.html