kafka的各组件和offset的理解

kafka的各组件和offset的理解

作者: 6cc89d7ec09f | 来源:发表于2018-03-28 13:53 被阅读107次

kafka的各组件和offset的理解
sparkstreaming +kafka 对offset进行的
【offset管理策略】Spark Streaming消费Kaf
SparkStreaming On Kafka —— Offse
[Kafka 101-6] “茴字有五种写法”之 offset
kafka marking the coordinator (i
kafka 基于Partition 和group 消费,kafk
JAVA-每日一面 2022-01-07
Kafka的offset管理
Flink kafka source源码解析(二)

转载:https://blog.csdn.net/sand_clock/article/details/68486599

官方文档定义：kafka是一个分布式、可分区、多副本的日志系统。

kafka术语：

massage： kafka中最基本的传递对象，有固定格式。
topic：一类消息，如page view，click行为等。
producer：产生信息的主体，可以是服务器日志信息等。
consumer：消费producer产生话题消息的主体。
broker：消息处理结点，多个broker组成kafka集群。
partition： topic的物理分组，每个partition都是一个有序队列。
segment：多个大小相等的段组成了一个partition。
offset：一个连续的用于定位被追加到分区的每一个消息的序列号，最大值为64位的long大小，19位数字字符长度。

对于一个消息系统而言，追踪客户消费了什么，也即消息消费状态是每个消息系统必须提供的关键功能之一。
系统可以提供的几种可能消息传递保障有3种：

At most once 消息至多会被发送一次，但如果产生网络延迟等原因消息就会有丢失。
At least once 消息至少会被发送一次，上面既然有消息会丢失，那么给它加一个消息确认机制即可解决，但是消息确认阶段也还会出现同样问题，这样消息就有可能被发送两次。
Exactly once 消息只会被发送一次，这是我们想要的效果。

那么kafka是怎么解决的呢？
kafka的解决方案：

broker将数据流划分为一组互相独立的分区。这些分区的语义由producer定义，由producer指定每条消息属于哪个分区。一个分区内的消息以到达broker的时间为准排序，将来按此顺序将消息发送给consumer。这样一来，就用不着为每一条消息保存一条元数据（比如标记该消息已使用）了，我们只需要为producer、topic、partition的每种组合记录一个“最高水位标记”（high water mark）即可。我们把这个最高水位标记称作偏移量offset。

topic、partition、segment、offset的关系：

partition、segment、offset都是为topic服务的，每个topic可以分为多个partition，一个partition相当于一个大目录，每个partition下面有多个大小相等的segment文件，这个segment是由message组成的，而每一个的segment不一定由大小相等的message组成。segment大小及生命周期在server.properties文件中配置。offset用于定位位于段里的唯一消息。

topic、partition、segment、offset的关系

接下来弄清楚segment具体细节之后再说offset：

segment由index和data文件组成，两个文件成对出现，分别存储索引和数据。
segment文件命名规则：对于所有的partition来说，segment名称从0开始，之后的每一个segment名称为上一个segment文件最后一条消息的offset值。

那么对于分区中的一个offset例如等于345552怎么去查找相应的message呢？

先找到该message所在的segment文件，通过二分查找的方式寻找小于等于345552的offset，假如叫S的segment符合要求，如果S等于345552则S上一个segment的最后一个message即为所求；如果S小于345552则依次遍历当前segment即可找到。

相关文章

kafka的各组件和offset的理解
转载:https://blog.csdn.net/sand_clock/article/details/68486...
sparkstreaming +kafka 对offset进行的
使用kafka自身保存offset Kafka版本0.10.1.1，已默认将消费的offset迁入到了Kafka一...
【offset管理策略】Spark Streaming消费Kaf
摘要：offset管理，Spark Streaming，Kafka Spark Streaming offset的...
SparkStreaming On Kafka —— Offse
一、Kafka 消费者如何管理 offset 我之前有写一篇kafka Consumer — offset的控制如...
[Kafka 101-6] “茴字有五种写法”之 offset
在 [Kafka 101 - 5] 图文并茂地介绍 offset 概念中我们介绍了消息的 offset 和消费者...
kafka marking the coordinator (i
问题 flink kafka 设置自动offset 提交kafka-client 0.11.0.2kafka-br...
kafka 基于Partition 和group 消费,kafk
kafka消费模式基于partition 指定offset 基于group auto.offset.reset ...
JAVA-每日一面 2022-01-07
问：1.kafka数据分区和消费者的关系，2.kafka的数据offset读取流程，3.kafka内部如何保证顺序...
Kafka的offset管理
消费者需要自己保留一个offset，从kafka 获取消息时，只拉去当前offset 以后的消息。Kafka 的s...
Flink kafka source源码解析(二)
offset提交模式(非checkpoint) 消费kafka topic最为重要的部分就是对offset的管理，...

网友评论

大数据中间件

本文标题：kafka的各组件和offset的理解

本文链接：https://www.haomeiwen.com/subject/ajiycftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

大数据中间件

热点阅读

大数据中间件

关于我们|服务条款|联系我们|kafka的各组件和offset的理解|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！