Kafka 已经定位为一个分布式流式处理平台,它以高吞吐、可持久化、可水平扩展、支持流数据处理等多种特性而被广泛使用。Kafka 之所以受到越来越多的青睐,与它所“扮演”的三大角色是分不开的:
- 消息系统: Kafka 和传统的消息系统(也称作消息中间件〉都具备系统解稿、冗余存储、流量削峰、缓冲、异步通信、扩展性、可恢复性等功能。与此同时,Kafka 还提供了大多数消息系统难以实现的消息顺序性保障及回溯消费的功能。
- 存储系统: Kafka 把消息持久化到磁盘,相比于其他基于内存存储的系统而言,有效地降低了数据丢失的风险。也正是得益于Kafka 的消息持久化功能和多副本机制,我们可以把Kafka 作为长期的数据存储系统来使用,只需要把对应的数据保留策略设置为“永久”或启用主题的日志压缩功能即可。
- 流式处理平台: Kafka 不仅为每个流行的流式处理框架提供了可靠的数据来源,还提供了一个完整的流式处理类库,比如窗口、连接、变换和聚合等各类操作。
基础概念
典型的kafka集群中包含若干producer,若干broker(Kafka支持水平扩展,一般broker数量越多,集群吞吐率越高),若干consumer group,以及一个Zookeeper集群。Kafka通Zookeeper管理集群配置,选举leader,以及在consumer group发生变化时进行rebalance。producer使用push模式将消息发布到broker,consumer使用pull模式从broker订阅并消费消息。
![](https://img.haomeiwen.com/i11509380/977b08a9f68e65a6.png)
- Producer :生产者负责创建消息, 然后将其投递到Kafka 中。
- Consumer:消费消息。每个consumer属于一个特定的consumer group(可为每个consumer指定group name,若不指定group name则属于默认的group)。使用consumer high level API时,同一topic的一条消息只能被同一个consumer group内的一个consumer消费,但多个consumer group可同时消费这一消息。
- Broker :服务代理节点。Kafka集群包含一个或多个服务器,这种服务器被称为broker
- Topic:每条发布到Kafka集群的消息都有一个类别,这个类别被称为topic。(物理上不同topic的消息分开存储,逻辑上一个topic的消息虽然保存于一个或多个broker上但用户只需指定消息的topic即可生产或消费数据而不必关心数据存于何处)
- Partition:parition是物理上的概念,每个topic包含一个或多个partition,创建topic时可指定parition数量。每个partition对应于一个文件夹,该文件夹下存储该partition的数据和索引文件
主题和分区
在kafka中,消息是按照topic进行归类的,topic是逻辑上的概念,还可以分为多个分区,一个分区只属于单个主题,同一主题下的不同分区消息是不同的,分区在存储层面是一个可追加的Log日志,通过特定偏移量offset(消息分区的唯一标识),从而保持分区有序,而不是主题有序
![](https://img.haomeiwen.com/i11509380/d4f78323298c4470.png)
![](https://img.haomeiwen.com/i11509380/7944faaef648d028.png)
多副本机制Replica
kafka通过多副本机制提升容灾能力,同一分区的不同副本保存相同的消息,副本之间是一主多从的关系,leader副本负责处理读写请求,follower副本只负责与leader副本消息同步。副本处于不同的broker 中,当leader 副本出现故障时,从follower 副本中重新选举新的leader 副本对外提供服务。Kafka 通过多副本机制实现了故障的自动转移,当Kafka 集群中某个broker 失效时仍然能保证服务可用。
![](https://img.haomeiwen.com/i11509380/b688f5f88b3bf0c0.png)
kafka消费端通过Pull模式拉取消息,并保存具体位置,消费者宕机后恢复上线,可根据之前保存的消费位置重新拉取消息进行消费。
- AR ( Assigned Replicas ):分区中的所有副本统称。
- ISR(On-Sync Replicas ):所有与leader 副本保持一定程度同步的副本(包括leader )组成.
- OSR (Out-of-Sync Replicas ):与leader 副本同步滞后过多的副本(不包括leader 副本)组成.
ISR 集合是AR 集合中的一个子集。消息会先发送到leader 副本,然后follower 副本才能leader 副本中拉取消息进行同步. AR=ISR+OSR ,在正常情况下, 所有的follower 副本都应该与leader 副本保持一定程度的同步,即AR=ISR,OSR 集合为空。
leader 副本负责维护和跟踪ISR 集合中所有follower 副本的滞后状态, 当follower 副本落后太多或失效时,leader 副本会把它从ISR 集合中剔除。如果OSR 集合中有follower 副本“追上’了leader 副本,那么leader 副本会把它从OSR 集合转移至ISR 集合。默认情况下,当leader 副本发生故障时,只有在ISR 集合中的副本才有资格被选举为新的leader,而在OSR 集合中副本则没有任何机会(不过这个原则也可以通过修改相应的参数配置来改变).
HW和LEO
- HW:是High Watermark 的缩写,俗称高水位,它标识了一个特定的消息偏移量offset ,消费者只能拉取到这个offset 之前的消息。
-
LEO: 是Log End Offset 的缩写,它标识当前日志文件中下一条待写入消息的offset ,LEO 的大小相当于当前日志分区中最后一条消息的offset 值加1.分区ISR 集合中的每个副本都会维护自身的LEO ,而ISR 集合中最小的LEO即为分区的HW ,对消费者而言只能消费HW 之前的消息.
HW&LEO.png
由此可见,Kafka 的复制机制既不是完全的同步复制,也不是单纯的异步复制。事实上,同步复制要求所有能工作的follower 副本都复制完,这条消息才会被确认为已成功提交,这种复制方式极大地影响了性能。而在异步复制方式下,follower 副本异步地从leader 副本中复制数据,数据只要被leader 副本写入就被认为已经成功提交。在这种情况下,如果follower 副本都还没有复制完而落后于leader 副本,突然leader 副本着机,则会造成数据丢失。Kafka 使用的这种ISR 的方式则有效地权衡了数据可靠性和性能之间的关系。
网友评论