数据仓库之Kafka

作者: 一个数据人的自留地 | 来源:发表于2020-07-23 09:24 被阅读0次

数据仓库之Kafka
大数据相关
Flume在企业大数据仓库中数据收集架构
Kafka相关文集
强烈推荐！入门大数据分析必看的知识点总结，适合零基础学习
大数据分析入门知识
Kafka解惑之Old Producer（4）——Case An
Kafka解惑之Old Producer（3）——Async A
Apache Kafka -4 基本操作
Apache Kafka -3 安装步骤

关注V-X：一个数据人的自留地

1、回复“数据中台”，获取<大厂数据中台资料>

2、回复“数据产品”，获取<大厂数据产品面试题>

3、回复“商业分析”，获取<大厂商业分析面试题>

4、回复“交个朋友”，进入<交流群>

Kafka消息队列

1. 点对点模式（一对一，消费者主动拉取数据，消息收到后消息清除）

点对点模型通常是一个基于拉取或者轮询的消息传送模型，这种模型从队列中请求信息，而不是将消息推送到客户端。这个模型的特点是发送到队列的消息被一个且只有一个接收者接收处理，即使有多个消息监听者也是如此。

2. 发布/订阅模式（一对多，数据生产后，推送给所有订阅者）

发布订阅模型则是一个基于推送的消息传送模型。发布订阅模型可以有多种不同的订阅者，临时订阅者只在主动监听主题时才接收消息，而持久订阅者则监听主题的所有消息，即使当前订阅者不可用，处于离线状态。

Q1

消费方式？

consumer采用pull（拉）模式从broker中读取数据。（名词可直接转下一模块）

push（推）模式很难适应消费速率不同的消费者，因为消息发送速率是由broker决定的。它的目标是尽可能以最快速度传递消息，但是这样很容易造成consumer来不及处理消息，典型的表现就是拒绝服务以及网络拥塞。而pull模式则可以根据consumer的消费能力以适当的速率消费消息。

对于Kafka而言，pull模式更合适，它可简化broker的设计，consumer可自主控制消费消息的速率，同时consumer可以自己控制消费方式——即可批量消费也可逐条消费，同时还能选择不同的提交方式从而实现不同的传输语义。

pull模式不足之处是，如果kafka没有数据，消费者可能会陷入循环中，一直等待数据到达。为了避免这种情况，我们在我们的拉请求中有参数，允许消费者请求在等待数据到达的“长轮询”中进行阻塞（并且可选地等待到给定的字节数，以确保大的传输大小）。

Kafka

Kafka是一个分布式消息队列。Kafka对消息保存时根据Topic进行归类，发送消息者称为Producer，消息接受者称为Consumer，此外kafka集群有多个kafka实例组成，每个实例(server)称为broker。

1. Producer ：消息生产者，就是向kafka broker发消息的客户端；

2. Consumer ：消息消费者，向kafka broker取消息的客户端；

3. Topic ：可以理解为一个队列；

4. Consumer Group （CG）：这是kafka用来实现一个topic消息的广播；

5. Broker ：一台kafka服务器就是一个broker。一个集群由多个broker组成。一个broker可以容纳多个topic；

6. Partition：为了实现扩展性，一个非常大的topic可以分布到多个broker（即服务器）上，一个topic可以分为多个partition，每个partition是一个有序的队列。partition中的每条消息都会被分配一个有序的id（offset）。kafka只保证按一个partition中的顺序将消息发给consumer，不保证一个topic的整体（多个partition间）的顺序；

7. Offset：kafka的存储文件都是按照offset.kafka来命名，用offset做名字的好处是方便查找。

一个数据人的自留地是一个助力数据人成长的大家庭，帮助对数据感兴趣的伙伴们明确学习方向、精准提升技能。

关注我，带你探索数据的神奇奥秘