名字的由来:
kafka的架构师jay kreps对于kafka的名称由来是这样讲的,由于jay kreps非常喜欢franz kafka,并且觉得kafka这个名字很酷,因此取了个和消息传递系统完全不相干的名称kafka,取名字是并没有特别的含义。
简介:
Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。
主要应用场景是:日志收集系统和消息系统。
image.png
Kafka主要设计目标:
可靠性 - Kafka是分布式,分区,复制和容错的。
可扩展性 - Kafka消息传递系统轻松缩放,无需停机。
耐用性 - Kafka使用分布式提交日志,这意味着消息会尽可能快地保留在磁盘上,因此它是持久的。
性能 - Kafka对于发布和订阅消息都具有高吞吐量。即使存储了许多TB的消息,它也保持稳定的性能。
消息系统介绍:
一个消息系统负责将数据从一个应用传递到另外一个应用,应用只需关注于数据,无需关注数据在两个或多个应用间是如何传递的。分布式消息传递基于可靠的消息队列,在客户端应用和消息系统之间异步传递消息。有两种主要的消息传递模式:点对点传递模式、发布-订阅模式。大部分的消息系统选用发布-订阅模式。Kafka就是一种发布-订阅模式。
架构示意图:
image.png
常见面试题:
1.Kafka 的设计时什么样的呢?
2.数据传输的事物定义有哪三种?
3.Kafka 判断一个节点是否还活着有那两个条件?
4.producer 是否直接将数据发送到 broker 的 leader(主节点)?
5、Kafa consumer 是否可以消费指定分区消息?
6、Kafka 消息是采用 Pull 模式,还是 Push 模式?
7.Kafka 存储在硬盘上的消息格式是什么?
8.Kafka 高效文件存储设计特点:
9.Kafka 与传统消息系统之间有三个关键区别
10.Kafka 创建 Topic 时如何将分区放置到不同的 Broker 中
11.Kafka 新建的分区会在哪个目录下创建
12.partition 的数据如何保存到硬盘
13.kafka 的 ack 机制
14.Kafka 的消费者如何消费数据
15.消费者负载均衡策略
16.数据有序
17.kafaka 生产数据时数据的分组策略
Kafka的优点
image.png
image.png
相关术语介绍:
-
Broker
Kafka集群包含一个或多个服务器,这种服务器被称为broker [5] -
Topic
每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic。(物理上不同Topic的消息分开存储,逻辑上一个Topic的消息虽然保存于一个或多个broker上但用户只需指定消息的Topic即可生产或消费数据而不必关心数据存于何处) -
Partition
Partition是物理上的概念,每个Topic包含一个或多个Partition. -
Producer
负责发布消息到Kafka broker -
Consumer
消息消费者,向Kafka broker读取消息的客户端。 -
Consumer Group
每个Consumer属于一个特定的Consumer Group(可为每个Consumer指定group name,若不指定group name则属于默认的group)。
网友评论