Kafka概述

作者: CoderInsight | 来源:发表于2023-02-16 09:36 被阅读0次

六、Kafka Streams
KAFKA基础
Kafka原理
分布式消息队列 Kafka
Spark Streaming实时流处理-3.分布式消息队列Ka
KafkaProducer
Kafka 概述
Kafka 概述
Kafka概述
Kafka 概述

1.Kafka概述

(1),Kafka定义

1.Kafka 是采用 Scala 语言开发的一个分布式、多分区、多副本且基于 zookeeper 协调的分布式发布与订阅消息系统。
2.与大多数消息系统比较，kafka有更好的吞吐量，内置分区，副本和故障转移，这有利于处理大规模的消息。目前越来越多的开源分布式处理系统如 Cloudera、Apache Storm、Spark、Flink 等都支持与 Kafka 集成。
3.kafka目前支持多种客户端语言：java，python，C++，php等，跨语言的支持力度也可以从侧面反映出一个消息中间件的流行程度。
4.kafka也是主从式的架构，是由多个Broker组成的，主节点就叫controller，其余的为从节点(Follwers)，controller是需要和zookeeper进行配合管理整个kafka集群。

(2),kafka集群架构

kafka集群架构信息.png

(3).kafka集群核心概念

1).Topic(主题)

Topic 被称为主题，在kafka中使用一个类别属性来划分消息的所属类，划分的这个类叫做Topic。他是一个消息(Message)的分类标签，在逻辑上可以被称之为一个队列；在物理是存储在不同的分区中(Partition)。
Producer 将消息发送到特定的Topic，Consumer 通过订阅特定的 Topic 来消费消息。
其中每一条消息记录包含三个要素：键（Key）、值（Value）、时间戳（Timestamp）。
一个Topic可以分布在多个Broker上。

2).`Producer(生产者)`

生产者发布消息到Kafka集群的终端或服务，负责选择将哪个记录分配给主题中的哪个分区。
即：生产者生产的一条消息，会被写入到某一个 Partition。
生产者在默认情况下把消息均衡地分布到主题的所有分区上，而并不关心特定消息会被写到哪个分区。不过，在某些情况下，生产者会把消息直接写到指定的分区。

3).`Consumer(消费者)`

消费者，即消息的使用者，从Kafka集群中消费消息的终端或服务，一个消费者可以消费多个 Topic 的消息;
对于某一个 Topic 的消息，其只会消费同一个 Partition 中的消息;
可以订阅一个或多个话题，并从Broker拉数据，从而消费这些已发布的消息。
一个 Partiton 允许多个 Consumer 同时消费。这一特性为消息的多元化特征提供了支持，引申出来的作用就是Kafka可以同时支持离线处理和实时处理。

4).Consumer Group(消费者组)

Consumer Group 是kafka提供的可拓展的具有容错性的消费者机制。

Group内可以有多个消费者，他们共享一个公共的Group ID，组内所有的消费者协调在一起消费订阅主题的所有分区内容。
每个 consumer 都属于一个 consumer group，kafak会保证每条消息只能被 consumer group 中的一个 Consumer 消费，但可以被多个 consumer group 消费。

5).`Broker(服务代理)`

Kafka 集群包含一个或多个服务器，一个borker就表示kafka集群中的一个节点，由多个 Kafka Broker 组成一个 Kafka Cluster，Broker的作用如下：
- Broker 接收来自生产者的消息，为消息设置偏移量，并提交消息到磁盘保存。
- Broker 为消费者提供服务，对读取分区的请求作出响应，返回已经提交到磁盘上的消息。
Broker 是集群的组成部分，其中会有选一个 Broker 作为 Controller ，它是由集群中的活跃成员选举出来的。Controller 负责管理集群中 Partition(分区数) 和 Replicas(副本数) ，包括将分区分配给 Broker 和监控 Broker。

6).Partiton(分区)

Partition 译为分区，是Kafka中横向扩展和一切并行化的基础，Topic 中的消息被分割为一个或多个的 Partition，每个Partition在物理上对应一个文件夹，该文件夹中存储的时候这个partition的所有消息和索引文件。
在集群中，一个Partition从属于一个 Leader，但是一个 Partition 可以分配给多个 Broker（非 Leader），这时候会发生分区复制。这种复制的机制为分区提供了消息冗余，如果一个 Broker 失效，那么其他活跃用户会重新选举一个 Leader 接管。
- Leader：每个partition有多个副本，其中有且仅有一个作为Leader，所有的读写请求都由Leader处理; 其他Replicas从Leader处把数据更新同步到本地，过程类似大家熟悉的MySQL中的Binlog同步。
- Follower：Follower跟随Leader，所有写请求都通过Leader路由，数据变更会广播给所有Follower，Follower与Leader保持数据同步。如果Leader失效，则从Follower中选举出一个新的Leader。
Replizcas of Patition：分区副本。副本是一个分区的备份，是为了防止信息丢失而创建的分区副本。通过分区副本引入数据冗余，同时提高kafka数据的可靠性。
Partition Leader：每个 Partition 有多个副本，其中有且仅有一个作为 Leader ， Leader 是负责消息读写的Partition。即所有的读写操作只能发生在 Leader 分区上。
Partition Follower：所有的 Follower 都需要从 Leader 同步消息，Follower 与 Leader 始终保持消息同步。Leader 与 Follower 的关系是主备关系，而非主从关系。也就是说当Leader 挂了的时候，其中一个 Follower 会成为新的 Leader。
Offset：偏移量。消息在Partition中的编号，编号顺序不跨 Partition。每条消息都有一个当前 Partition 下的唯一的 64 字节的 Offset ，它是相对于当前分区第一条消息的偏移量。
消息以追加的形式写入分区，先后以顺序的方式读取。如果partition规则设置的合理，所有消息可以均匀分布到不同的partition里，这样就实现了水平扩展。（如果一个topic对应一个文件，那这个文件所在的机器I/O将会成为这个topic的性能瓶颈，而partition解决了这个问题）。

注意：
- 由于一个Topic (主题)包含无数个分区，因此无法保证在整个 Topic 中有序，但是单个 Partition 分区可以保证有序。消息被迫加写入每个分区的尾部。Kafka 通过分区来实现数据冗余和伸缩性。
- Partition 可以分布在不同的服务器上，也就是说，一个Topic可以跨越多个服务器，以此来提供比单个服务器更强大的性能。

7).Segment(段)

Segment 被译为段，将 Partition 进一步细分为若干个 Segment，每个 Segment 文件的大小相等。

8),ISR(In-Sync Replica)列表

ISR(In-Sync Replica)：是Replicas的一个子集，表示目前Alive且与Leader能够“Catch-up”的Replicas集合。由于读写都是首先落到Leader上，所以一般来说通过同步机制从Leader上拉取数据的Replica都会和Leader有一些延迟(包括了延迟时间和延迟条数两个维度)，任意一个超过阈值都会把该Replica踢出ISR。每个Partition都有它自己独立的ISR。

(4).Kafka和Zookeeper如何配合工作

kafka严重依赖于zookeeper集群。所有的broker在启动的时候都会往zookeeper进行注册，目的就是选举出一个controller，这个选举过程非常简单粗暴，就是一个谁先谁当的过程，不涉及什么算法问题。
那成为controller(主节点)之后要做啥呢，它会监听zookeeper里面的多个目录，例如有一个目录/brokers/，其他从节点往这个目录上注册（就是往这个目录上创建属于自己的子目录而已）自己，这时命名规则一般是它们的id编号，比如/brokers/0,1,2。
注册时各个节点必定会暴露自己的主机名，端口号等等的信息，此时controller就要去读取注册上来的从节点的数据（通过监听机制），生成集群的元数据信息，之后把这些信息都分发给其他的服务器，让其他服务器能感知到集群中其它成员的存在。
此时模拟一个场景，我们创建一个主题（其实就是在zookeeper上/topics/topicA这样创建一个目录而已），kafka会把分区方案生成在这个目录中，此时controller就监听到了这一改变，它会去同步这个目录的元信息，然后同样下放给它的从节点，通过这个方法让整个集群都得知这个分区方案，此时从节点就各自创建好目录等待创建分区副本即可。这也是整个集群的管理机制。

(5),kafka核心模块解析

1565339628812-1595217438986.png

1),Producer API

它允许应用程序向一个或多个 Topics 上发送消息记录。

2),Consumer API

允许应用程序订阅一个或多个 Topics 并处理为其生成的记录流。

3),Streams API

它允许应用程序作为流处理器，从一个或多个主题中消费输入流并为其生成输出流，有效的将输入流转换为输出流。

4),Connector API

它允许构建和运行将 Kafka 主题连接到现有应用程序或数据系统的可用生产者和消费者。例如，关系数据库的连接器可能会捕获对表的所有更改。

(6),Kafka的日志类型

第一种日志是我们 kafka启动的日志，用于我们排查问题，查看报错信息的日志。
第二种是数据日志，因为kafka在存储数据的时候是日志的形式存放在磁盘中的，也就是我们平常所说的Partition和Segment
- 我们创建一个分区，一个备份，那么 test 就应该在三台机器上或者三个数据目录只有一个 test-0。（分区的下标是从 0 开始的）
- 如果我们创建 N 个分区，我们就会在三个服务器上发现，test_0-n，如果我们创建 M 个备份，我们就会在发现，test_0 到 test_n 每一个都是 M 个。

其他核心模块预览

核心模块预览.png

六、Kafka Streams
6.1 概述 6.1.1 Kafka Streams Kafka Streams。Apache Kafka开源项目...
KAFKA基础
KAFKA概述 !/bin/bash /home/jmsops/app/kafka/bin/kafka-serve...
Kafka原理
Kafka概述 Kafka构架 Kafka的Partition log是如何工作的？ Kafka的Consumer...
分布式消息队列 Kafka
目录 Kafka概述
Spark Streaming实时流处理-3.分布式消息队列Ka
0. 目录 Kafka概述 Kafka架构及核心概念 Kafka部署及使用 Kafka容错性测试 Kafka AP...
KafkaProducer
Kafka源码阅读(一)：Kafka Producer整体架构概述及源码分析 zqhxuyuan Kafka源码分...
Kafka 概述
Kafka架构 Broker：Kafka集群包含一个或多个服务器，这种服务器被称为broker Topic：每条发...
Kafka 概述
Kafka 能用来干嘛？消息队列实时数据处理，流式处理（一般结合storm）日志聚合等 Kafka 架构 ...
Kafka概述
什么是kafka Kafka官网介绍kafka是一个分布式的流平台。可以让你发布和订阅流式的记录。这一方面与消息...
Kafka 概述
接触Kafka之前需要首先理解几个概念。 0、分布式系统比较常见的概念：建立在计算机网络之上的软件系统，若干独立...

Kafka概述

1.Kafka概述

(1),Kafka定义

(2),kafka集群架构

(3).kafka集群核心概念

1).Topic(主题)

2).`Producer(生产者)`

3).`Consumer(消费者)`

4).Consumer Group(消费者组)

5).`Broker(服务代理)`

6).Partiton(分区)

7).Segment(段)

8),ISR(In-Sync Replica)列表

(4).Kafka和Zookeeper如何配合工作

(5),kafka核心模块解析

1),Producer API

2),Consumer API

3),Streams API

4),Connector API

(6),Kafka的日志类型

其他核心模块预览

相关文章

六、Kafka Streams

KAFKA基础

Kafka原理

分布式消息队列 Kafka

Spark Streaming实时流处理-3.分布式消息队列Ka

KafkaProducer

Kafka 概述

Kafka 概述

Kafka概述

Kafka 概述

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Kafka概述

1.Kafka概述

(1),Kafka定义

(2),kafka集群架构

(3).kafka集群核心概念

1).Topic(主题)

2).Producer(生产者)

3).Consumer(消费者)

4).Consumer Group(消费者组)

5).Broker(服务代理)

6).Partiton(分区)

7).Segment(段)

8),ISR(In-Sync Replica)列表

(4).Kafka和Zookeeper如何配合工作

(5),kafka核心模块解析

1),Producer API

2),Consumer API

3),Streams API

4),Connector API

(6),Kafka的日志类型

其他核心模块预览

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

2).`Producer(生产者)`

3).`Consumer(消费者)`

5).`Broker(服务代理)`