美文网首页
Kafka 概述

Kafka 概述

作者: 平凡的小Y | 来源:发表于2017-02-13 20:31 被阅读94次

Kafka架构

  • Broker:Kafka集群包含一个或多个服务器,这种服务器被称为broker
  • Topic:每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic。(物理上不同Topic的消息分开存储,逻辑上一个Topic的消息虽然保存于一个或多个broker上但用户只需指定消息的Topic即可生产或消费数据而不必关心数据存于何处)
  • Partition:Partition(分片)是物理上的概念,每个Topic包含一个或多个Partition,创建topic时可指定parition数量。每个partition对应于一个文件夹,该文件夹下存储该partition的数据和索引文件。
  • Producer:负责发布消息到Kafka broker
  • Consumer:消息消费者,向kafka broker读取消息的客户端。每个consumer属于一个特定的consuer group(可为每个consumer指定group name,若不指定group name则属于默认的group)。使用consumer high level API时,同一topic的一条消息只能被同一个consumer group内的一个consumer消费,但多个consumer group可同时消费这一消息。
  • Consumer Group:每个Consumer属于一个特定的Consumer Group(可为每个Consumer指定group name,若不指定group name则属于默认的group)。

Kafka拓扑结构:

kafka-tupe-20170213.png

Kafka的Topic & Partition

Topic在逻辑上可以被认为是一个queue,每条消费都必须指定它的Topic,可以简单理解为必须指明把这条消息放进哪个queue里。

消息发送时都被发送到一个topic,其本质就是一个目录,而topic是由一些Partition Logs(分区日志)组成,其组织结构如下图所示:

kafka_log_anatomy_20170213.png
因为每条消息都被append到该Partition中,属于顺序写磁盘,因此效率非常高(经验证,顺序写磁盘效率比随机写内存还要高,这是Kafka高吞吐率的一个很重要的保证)。

Kafka 分区机制

Kafka中可以将Topic从物理上划分成一个或多个分区(Partition),每个分区在物理上对应一个文件夹,以“topicName_partitionIndex”的命名方式命名,该文件夹下存储这个分区的所有消息(.log)索引文件(.index),这使得Kafka的吞吐率可以水平扩展。
生产者在生产数据的时候,可以为每条消息指定Key,这样消息被发送到broker时,会根据分区规则选择被存储到哪一个分区中,如果分区规则设置的合理,那么所有的消息会将被均分的分布到不同的分区中,这样就实现了负载均衡和水平扩展。另外,在消费端,同一个消费组可以多线程并发的从多个分区中同时消费数据。
默认kakfa.producer.Partitioner接口的类

class DefaultPartitioner(props: VerifiableProperties = null) extends Partitioner {
  def partition(key: Any, numPartitions: Int): Int = {
    Utils.abs(key.hashCode) % numPartitions
  }
}

Consumer Group

Kafka用来实现一个Topic消息的广播(发给所有的Consumer)和单播(发给某一个Consumer)的手段。一个Topic可以对应多个Consumer Group。

  • 单播:所有Consumer在同一个Croup里
  • 广播:每个Consumer有一个独立的Group

使用Consumer high level API时,同一Topic的一条消息只能被同一个Consumer Group内的一个Consumer消费,但多个Consumer Group可同时消费这一消息。

producer

Producer发送消息到broker时,会根据Paritition机制选择将其存储到哪一个Partition。
producer 写入消息序列图:

kafka-producer-20170213.png.png

流程说明:

1. producer 先从 zookeeper 的 "/brokers/.../state" 节点找到该 partition 的 leader
2. producer 将消息发送给该 leader
3. leader 将消息写入本地 log
4. followers 从 leader pull 消息,写入本地 log 后 leader 发送 ACK
5. leader 收到所有 ISR 中的 replica 的 ACK 后,增加 HW(high watermark,最后 commit 的 offset) 并向 producer 发送 ACK

Kafka Shell

启动:

 ./kafka-server-start.sh ../config/server.properties > /dev/null &

查看topic:

./kafka-topics.sh --zookeeper 10.211.55.5:2181 --list

创建topic:

./kafka-topics.sh --create --zookeeper 10.211.55.5:2181 --replication-factor 2 --partitions 1 --topic testYanY
#  replication-factor 副本参数
#  partitions 分区参数

删除topic:

./kafka-topic.sh --zookeeper 10.211.55.5:2181 --topic  testYanY --delete

消费者:

./kafka-console-consumer.sh --zookeeper 10.211.55.5:2181 --topic testYanY --from-beginning

生产者:

./kafka-console-producer.sh --broker-list 10.211.55.5:9092 --topic testYanY

相关文章

  • 六、Kafka Streams

    6.1 概述 6.1.1 Kafka Streams Kafka Streams。Apache Kafka开源项目...

  • KAFKA基础

    KAFKA概述 !/bin/bash /home/jmsops/app/kafka/bin/kafka-serve...

  • Kafka原理

    Kafka概述 Kafka构架 Kafka的Partition log是如何工作的? Kafka的Consumer...

  • 分布式消息队列 Kafka

    目录 Kafka概述

  • Spark Streaming实时流处理-3.分布式消息队列Ka

    0. 目录 Kafka概述 Kafka架构及核心概念 Kafka部署及使用 Kafka容错性测试 Kafka AP...

  • KafkaProducer

    Kafka源码阅读(一):Kafka Producer整体架构概述及源码分析 zqhxuyuan Kafka源码分...

  • Kafka 概述

    Kafka架构 Broker:Kafka集群包含一个或多个服务器,这种服务器被称为broker Topic:每条发...

  • Kafka 概述

    Kafka 能用来干嘛? 消息队列 实时数据处理, 流式处理(一般结合storm) 日志聚合等 Kafka 架构 ...

  • Kafka概述

    什么是kafka Kafka官网介绍kafka是一个分布式的流平台。 可以让你发布和订阅流式的记录。这一方面与消息...

  • Kafka 概述

    接触Kafka之前需要首先理解几个概念。 0、分布式系统 比较常见的概念:建立在计算机网络之上的软件系统,若干独立...

网友评论

      本文标题:Kafka 概述

      本文链接:https://www.haomeiwen.com/subject/ajetwttx.html