kafka关于log-cleaner线程异常分析largest

kafka关于log-cleaner线程异常分析largest

作者: 知而乐者 | 来源:发表于2020-03-12 20:45 被阅读0次

kafka关于log-cleaner线程异常分析largest
【2019-07-27】kafka单节点broker故障java
线程的异常处理机制
【Kafka】排查进程无法Jstack
iOS 崩溃监控
找出进程消失的“案发现场”
[SPARK-19680] OffsetOutOfRangeEx
Kafka源码分析-Content Table
Kotlin 协程之取消与异常处理探索之旅(上)
Kafka源码分析-Consumer（3）-ConsumerNe

出现问题的日志

kafka版本：0.10.2.1

__consumer_offsets日志清除流程

以清除__consumer_offsets-45分区为例：

问题出现的原因就是在判断偏移量是否超出最大值的时候出错

超出最大值的原因是在清理日志文件分组的时候，通过索引（index）文件中的索引相减判断是否大于Integer.MAX_VALUE，而在清除过程中通过log中文件中实际的偏移量相减来确认

如：清理45的时候，segment文件如下：

00000000000000000000.log和00000000002147462149.log的索引文件都为0，所以分为一个组，

而实际上00000000002147462149.log最大偏移量-0已经超出最大值所以在清理的时候报错。

目前分组的参数只有log.config.segmentSize, log.config.maxIndexSize无法进行更改，而且log-cleaner只有在kafka启动的时候才会重启，无其他启动方法。

解决方法只有升级kafka，目前看2.0中分组的代码是通过实际的偏移量来进行，不会出现这个问题

00000000002147462149.log文件内容：

源码分析（对应上面流程）

1、首先确认异常代码出现的位置

canConvert的方法实现是：

所以，结论和网上说的一样，offset-baseOffset大于了Integer的最大值

2、为什么会大于呢？

需要找下baseOffset和offset的的值是怎么计算出来的

baseOffset的查找：

baseOffset是场景LogSegment的时候构造参数

往上追发现创建方法如下，baseOffset为segments第一个的baseOffset

segments说明：segments是个集合，集合里面是各个分区的segment，比如下图中，

00000000000000000000.log和00000000002147462149.log都是segment（包含index，和timeIndex文件）

lastOffset的查找：

往上追代码发现是这样获取的，可以理解为log文件offset及segments里面最后一个segment的最大偏移量

所以，需要知道segments是怎么来的，追代码发现这段代码：

意思是：将分区下所有需要清除的日志文件分组，进行然后进行合并清除，分组代码如下：

最坑的一句话如图，通过判断索引文件index里的偏移量来，确定要不要合成一个组。查看我们的问题分区日志：

00000000000000000000.log和00000000002147462149.log的index文件都为0，所以会将00000000000000000000.log和00000000002147462149.log都当作一个分组来进行清除

解析查看00000000002147462149.log的内容发现，最大的log已经超出了最大值：

所以会抛出移除，导致log-cleaner线程挂掉

结论：

在进行合并清除判断的时候，通过两个文件中index中记录的偏移量来判断是否大于Integer的最大值，但是在创建.clean文件的时候，通过两个文件的实际位移来判断偏移量是否大于Integer的最大值，所以抛出异常

解决方法：

1、想办法在分组的时候不再合并一个组，但是分组的参数中只有segmentsSize和maxIndexSize的判断，所以没有办法来通过配置参数分组（segmentsSize和maxIndexSize会对实际的文件有影响）

2、是否可以不重启kafka进行log线程的启动呢？答案是不行的，源码中没有单独的启动logger的线程，所以只能通过重启

目前看来解决方法只有一个：升级kafka的版本，来看下2.0kafka版本分组的实现，2.0中会直接通过log中的偏移量来判断是否要分为一个组，所以不会出现log-cleaner线程挂掉的情况：

相关文章

kafka关于log-cleaner线程异常分析largest
出现问题的日志 kafka版本：0.10.2.1 __consumer_offsets日志清除流程以清除__co...
【2019-07-27】kafka单节点broker故障java
版本 U10SPC005 kafka 问题描述 kafka单broker故障，提示异常如下：分析过程 1.对...
线程的异常处理机制
前言分析线程对异常的处理机制，首先要了解Java自身的异常处理机制，关于 try、catch、finally、t...
【Kafka】排查进程无法Jstack
1. 背景通过jstack分析kafka堆栈信息时,发现jstack无法使用,并且提示如下异常： 2. 分析查...
iOS 崩溃监控
我们分析崩溃日志时最先看的是异常信息，分析出问题的是哪个线程，在线程回溯里找到那个线程；然后，分析方法调用栈，符号...
找出进程消失的“案发现场”
问题来源：Kafka服务出现访问异常问题分析：查看Broker日志，JVM进程在没有任何异常的情况下，直接被调用...
[SPARK-19680] OffsetOutOfRangeEx
当kafka中的数据丢失时，Spark程序消费kafka中数据的时候就可能会出现以下异常：原因分析 Spark在...
Kafka源码分析-Content Table
Kafka源码分析-网络层-1 Kafka源码分析-网络层-2 Kafka源码分析-网络层-3 Kafka源码分析...
Kotlin 协程之取消与异常处理探索之旅(上)
前言我们知道线程可以被终止，线程里可以抛出异常，类似的协程也会遇到此种情况。本篇将从线程的终止与异常处理分析开始...
Kafka源码分析-Consumer（3）-ConsumerNe
一.概述KafkaConsumer类 Kafka Consumer不是个线程安全的类。为了便于分析，我们认为消费者...

网友评论

本文标题：kafka关于log-cleaner线程异常分析largest

本文链接：https://www.haomeiwen.com/subject/toswjhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|kafka关于log-cleaner线程异常分析largest |投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！