美文网首页Kafka相关大数据开发
大数据开发:Kafka主题与分区概念详解

大数据开发:Kafka主题与分区概念详解

作者: 成都加米谷大数据 | 来源:发表于2021-07-01 17:37 被阅读0次

Kafka作为大数据生态的重要组件,尤其在实时消息流处理上,有明显的优势,而Kafka的性能优势,与Kafka的架构有关。今天的大数据开发学习分享,我们就主要来讲讲Kafka当中的两个重要概念,主题与分区。

主题(Topic)与分区(Partition)

Kafka中的消息以主题为单位进行归类,生产者负责将消息发送到特定的主题(发送到Kafka集群中的每一条消息都要指定一个主题),而消费者负责订阅主题并进行消费。

主题是一个逻辑上的概念,它还可以细分为多个分区,一个分区只属于单个主题,很多时候也会把分区称为主题分区(Topic-Partition)。同一主题下的不同分区包含的消息是不同的,分区在存储层面可以看作一个可追加的日志(Log)文件,消息在被追加到分区日志文件的时候都会分配一个特定的偏移量(offset)。

offset是消息在分区中的唯一标识,Kafka通过它来保证消息在分区内的顺序性,不过offset并不跨越分区,也就是说,Kafka保证的是分区有序而不是主题有序。

如上图所示,主题中有4个分区,消息被顺序追加到每个分区日志文件的尾部。Kafka中的分区可以分布在不同的服务器(broker)上,也就是说,一个主题可以横跨多个broker,以此来提供比单个broker更强大的性能。

每一条消息被发送到broker之前,会根据分区规则选择存储到哪个具体的分区。如果分区规则设定得合理,所有的消息都可以均匀地分配到不同的分区中。如果一个主题只对应一个文件,那么这个文件所在的机器I/O将会成为这个主题的性能瓶颈,而分区解决了这个问题。在创建主题的时候可以通过指定的参数来设置分区的个数,当然也可以在主题创建完成之后去修改分区的数量,通过增加分区的数量可以实现水平扩展。

Kafka为分区引入了多副本(Replica)机制,通过增加副本数量可以提升容灾能力。

同一分区的不同副本中保存的是相同的消息(在同一时刻,副本之间并非完全一样),副本之间是“一主多从”的关系,其中leader副本负责处理读写请求,follower副本只负责与leader副本的消息同步。副本处于不同的broker中,当leader副本出现故障时,从follower副本中重新选举新的leader副本对外提供服务。Kafka通过多副本机制实现了故障的自动转移,当Kafka集群中某个broker失效时仍然能保证服务可用。

如上图所示,Kafka集群中有4个broker,某个主题中有3个分区,且副本因子(即副本个数)也为3,如此每个分区便有1个leader副本和2个follower副本。生产者和消费者只与leader副本进行交互,而follower副本只负责消息的同步,很多时候follower副本中的消息相对leader副本而言会有一定的滞后。

Kafka消费端也具备一定的容灾能力。Consumer使用拉(Pull)模式从服务端拉取消息,并且保存消费的具体位置,当消费者宕机后恢复上线时可以根据之前保存的消费位置重新拉取需要的消息进行消费,这样就不会造成消息丢失。

关于大数据开发学习,Kafka主题与分区概念,以上就为大家做了基本的介绍了。学习Kafka,对于内部的很多概念,是需要自己去理清楚的,并且还要结合到实际运行机制去理解,才能更加透彻。

相关文章

  • 大数据开发:Kafka主题与分区概念详解

    Kafka作为大数据生态的重要组件,尤其在实时消息流处理上,有明显的优势,而Kafka的性能优势,与Kafka的架...

  • 读书笔记:Kafka简单入门

    [TOC] 基础概念 主题(Topic)与分区(Partition) Kafka中的消息以主题为单位进行归类,主题...

  • Kafka的存储机制以及可靠性

    一、kafka的存储机制 kafka通过topic来分主题存放数据,主题内有分区,分区可以有多个副本,分区的内部还...

  • kafka——生产者原理解析

    一、为什么分区 kafka有主题(Topic)的概念,它是承载真实数据的逻辑容器,而在主题之下还分为若干个分区,也...

  • 数据写入kafka的分区策略

    众所周知,kafka有分区的概念,生产者写入数据到kafka,涉及到数据到底写到哪个分区?kafka api提供了...

  • Kafka配置详解

    kafka基本概念及配置详解 kafka 基本概念 Topic 主题,声明一个主题,producer指定该主题发布...

  • Kafka--02基础

    Kafka相关概念: Topics (主题)属于特定类别的消息流称为主题,数据存储在主题中。主题被拆分成分区,对于...

  • KAFKA基础知识

    分区与主题 kafka的消息是通过主题进行分类的。主题可以被分成若干个分区。其实主题是一个逻辑概念,主题在物理上被...

  • kafka学习(4) 主题与分区

    主题和分区是kafka的核心概念, 主题作为消息的归类, 可以细分为一个或者多个分区, 分区可以看做是消息的二次归...

  • Flink 消费 Kafka 分区顺序性问题

    1. kafka分区数据顺序性 kafka具有分区内数据有序的特点,可以通过将数据指定到特定的分区来实现数据的顺序...

网友评论

    本文标题:大数据开发:Kafka主题与分区概念详解

    本文链接:https://www.haomeiwen.com/subject/gptsultx.html