美文网首页
关于2017-06-16 kafka集群异常问题定位

关于2017-06-16 kafka集群异常问题定位

作者: LancerLin_LX | 来源:发表于2017-06-16 20:58 被阅读0次

问题定位

查看监控后,发现kafka集群在2017-06-16 16:50分发现 java_log_topic和php_log_topic出现异常
定位后发现今天的数据量涨幅比较大

  1. kafka集群相关指标
  • 条数平均在11k+/s
  • 集群的输入在45M/s每台机器
  • 集群的输出在55M/s每台机器
  1. 服务器相关指标
  • 千兆网卡100+M/s,峰值200+M/s

1.kafka集群相关指标图

每秒的条数

image.png

每秒的输入(单位M)

image.png

每秒的输出(单位M)

image.png

2.服务器带宽指标

10.10.16.18

image.png

10.10.16.19

image.png

10.10.16.20

image.png

问题总结

kafka集群的千兆网卡带宽已经对集群造成瓶颈,带宽的瓶颈导致replication同步以及kafka与ZK通信异常等问题。
需要计划改用万兆网卡

相关文章

网友评论

      本文标题: 关于2017-06-16 kafka集群异常问题定位

      本文链接:https://www.haomeiwen.com/subject/kdbmqxtx.html