【大数据技术】kafka简介和底层实现

作者: 江澈_SIMON | 来源:发表于2020-12-15 00:21 被阅读0次

【大数据技术】kafka简介和底层实现
Kafka基本原理
Kafka的高效传输-----零拷贝(Zero Copy)
区块链技术架构分析（一）---数据层
区块链技术架构分析（数据层）
区块链技术架构分析（1）-存储系统
基于zero copy的高效数据传输
Kafka0.8集群部署与shell命令行操作
kafka集群搭建
kafka exactly once 批处理

一、Kafka的三大组件：Producer、Server、Consumer

1、Kafka的Producer写入消息

producer采用push（推）模式将消息发布到broker，每条消息，都被追加到分区中（顺序写到磁盘，比随机写内存效率高）。

kafka单partition的写入的流程

· 分区的作用：方便容量扩展，可以多并发读写数据，所以我们会指定多个分区进行数据存储。

· 一般根据 event_key的hash % numPartitions来确定写入哪个分区，如果写入时没有指定key，则轮询写入每个分区；因此导致每个partition中消息是有序的，整体无序。

kafka多partition的写入的流程

每条event数据写入partitionA中，并且只会写入partitionA_leader，当partitionA_leader写入完成后partitionA_flower节点再去partitionA_leader上异步拉取数据；默认ack为1，表示不会等待partitionA_flowers写入完成；如果设置ack为副本数或ack=-1，则等待副本全部写完，再写入下一条数据。

2、kafka的broker——保存消息

1、创建topic，并指定分区和副本数

2、每个分区（partition）有一个leader，多个follower，pull数据时先寻找leader，只会读leader上的数据，leader和follower不会在一个节点上，leader节点宕机后，其中一个follower变成leader

3、消息数据存在每个分区中，默认配置每条消息保存7天或分区达到1GB 后删除数据

3、Kafka的Consumer消费数据：

1、consumer采用pull（拉）模式从broker中读取数据。

2、如果一个消费者来消费同一个topic下不同分区的数据，会读完一个分区再读下一个分区

生产者（producer）API只有一套； 但是消费者（consumer）API有两套（高级API和低级API）

一、高级API：

Zookeeper管理offset（默认从最后一个开始读新数据，可以配置从开头读）

kafka server（kafka服务）管理分区、副本

二、低级API：