美文网首页
A(18) Kafka数据重复

A(18) Kafka数据重复

作者: bigdata张凯翔 | 来源:发表于2020-07-10 02:06 被阅读0次

    幂等性+ack-1+事务
    Kafka数据重复,可以再下一级:SparkStreaming、redis或者hive中dwd层去重,去重的手段:分组、按照id开窗只取第一个值;

    Kafka数据重复怎么处理?

    在下一级消费者中去重。(redis、SparkStreaming)

    二、重复消费问题:

    • 即上述 消费方第1种情况—consumer在从broker读取消息后等消费完再commit,如果consumer还没来得及消费或消费时crash,导致offset未提交,该consumer下一次读取的开始位置会跟上一次commit之后的开始位置相同,导致重复消费问题。
      关于重复消费的问题,*可以通过将每次消费的数据的唯一标识存入Redis中,每次消费前先判断该条消息是否在Redis中,如果有则不再消费,如果没有再消费,消费完再将该条记录的唯一标识存入Redis中,并设置失效时间,防止Redis数据过多、垃圾数据问题。

    相关文章

      网友评论

          本文标题:A(18) Kafka数据重复

          本文链接:https://www.haomeiwen.com/subject/chpucktx.html