美文网首页flink
Flink消费Kafka如何保证相同标识消息的有序性

Flink消费Kafka如何保证相同标识消息的有序性

作者: LZhan | 来源:发表于2019-11-12 10:17 被阅读0次
1.需求

在某些情况下,我们需要保证flink在消费kafka时,对于某些具有相同标识的消息,要保证其顺序性。
比如说具有相同uuid的用户行为消息,要保证其消息的顺序性,这样才能有效分析其用户行为。
问题:
kafka只能保证同一个partition内的消息是顺序性的,但是整个topic下并不能保证是顺序的,那么该如何解决呢?

2.解决方案

<1> 在生产消息时,就将具有相同uuid的消息分配到同一个分区中。
扩展:kafka topic消息分配partition规则
源码:

public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) {
         List<PartitionInfo> partitions = cluster.partitionsForTopic(topic);
         int numPartitions = partitions.size();
         if (keyBytes == null) {
             int nextValue = counter.getAndIncrement();
             List<PartitionInfo> availablePartitions = cluster.availablePartitionsForTopic(topic);
             if (availablePartitions.size() > 0) {
                 int part = Utils.toPositive(nextValue) % availablePartitions.size();
                  return availablePartitions.get(part).partition();
             } else {
                 // no partitions are available, give a non-available partition
                 return Utils.toPositive(nextValue) % numPartitions;
             }
         } else {
             // hash the keyBytes to choose a partition
             return Utils.toPositive(Utils.murmur2(keyBytes)) % numPartitions;
        }
     }

通过源码,分区器就会根据消息里面的分区参数key值将消息分到对应的partition。
1)如果没有指定key值并且可用分区个数大于0时,在就可用分区中做轮询决定改消息分配到哪个partition
2)如果没有指定key值并且没有可用分区时,在所有分区中轮询决定改消息分配到哪个partition
3)如果指定key值,对key做hash分配到指定的partition

相关实现方案链接:https://blog.csdn.net/justclimbing/article/details/79613900
实现方案1:自定义在flume拦截器中使用 kafka producer
实现方案2:使用kafka-sink

<2> 如果只是某一窗口内的统计,可以针对窗口进行时间戳排序
继承抽象类ProcessWindowFunction,
ProcessWindowFunction<IN, OUT, KEY, W extends Window>

该类一次性迭代整个窗口里的所有元素,比较重要的一个对象是Context,可以获取到事件和状态信息,这样我们就可以实现更加灵活的控制,这实际上是process的主要特点吧。该算子会浪费很多性能吧,主要原因是不增量计算,要缓存整个窗口然后再去处理,所以要设计好内存。

WindowedStream调用process方法,传入ProcessWindowFunction参数。

public class EventSessionProcessFunction extends ProcessWindowFunction<EventBase, EventBase, String, TimeWindow> {

    @Override
    public void process(String key, Context context, Iterable<EventBase> elements, Collector<EventBase> out) throws Exception {
        List<EventBase> sortedEvents = Ordering.from((Comparator<EventBase>) (x, y) -> {
            if (x.getTimestamp() - y.getTimestamp() > 0) {
                return 1;
            } else if (x.getTimestamp() - y.getTimestamp() < 0) {
                return -1;
            } else {
                return 0;
            }
        }).sortedCopy(elements);

        for (EventBase event : sortedEvents) {
            out.collect(event);
        }
    }
}

相关文章

  • Flink消费Kafka如何保证相同标识消息的有序性

    1.需求 在某些情况下,我们需要保证flink在消费kafka时,对于某些具有相同标识的消息,要保证其顺序性。比如...

  • MQ随记(2)

    如何保证消息不会被重复消费(保证消息消费时的幂等性) kafka 按照数据进入kafka的顺序,kafka会给每条...

  • Flink和kafka

    Flink + Kafka 整合数据一致性保证 1. Flink消费kafka数据起始offset配置:Flink...

  • Flink实现Kafka到Mysql的Exactly-Once

    Flink实现Kafka到Mysql的Exactly-Once 背景 最近项目中使用Flink消费kafka消息,...

  • 消息队列

    为什么使用消息队列?消息队列有什么优点和缺点? 如何保证消息队列高可用?如何保证消息不被重复消费? kafka,a...

  • kafka消息发送注意事项

    kafka通过partition的概念,保证了partition内消息有序性,缓解了上面的问题。partiti...

  • Kafka

    1.Kafka高可用怎么做的? 2.Kafka消息不重复怎么做的?如何保证消息消费时的幂等性? 3.Kakfa如何...

  • 无镜--kafka之生产者(五)

    在看很多讲kafka的文章里面都会说:kafka只保证单个partition的有序性,那么kafka是怎么保证有序...

  • 消息队列的消费语义和投递语义

    消费语义 如何保证消息最多消费一次 如何保证消息至少消费一次 如何保证消息恰好消费一次 投递语义 如何保证消息最多...

  • Flink 常见问题汇总-1(持续更新)

    1、Flink如何保证精确一次性消费 Flink 保证精确一次性消费主要依赖于两种Flink机制 (1) Chec...

网友评论

    本文标题:Flink消费Kafka如何保证相同标识消息的有序性

    本文链接:https://www.haomeiwen.com/subject/inrfictx.html