kafak生产运维相关

作者: 水流不流 | 来源:发表于2020-02-18 16:33 被阅读0次

kafak生产运维相关
高级php程序员必会的知识点二（Jenkins2 、Docker
2018-11-22
IT运维监控体系建设之我所见
《Linux入门第二天：马哥亲讲Linux运维发展与学习路线图》
5.k8s 日常运维事项
ubuntu 运维相关
运维相关收藏
Mac运维相关
linux运维相关

不同的发行版本

Apache kafak

Confluent kafka

CDH kafak

迭代版本

0.7版本：只提供了最基础的消息队列功能

0.8版本：引入了副本机制

0.9.0.0版本 : 增加安全认证/权限功能；使用java重写了新版本的消费者api；引入了kafak Connect组件;

0.10.0.0版本：引入kafka Streams, 升级成分布式流处理平台

0.11.0.0版本：提供了幂等性Producer API及事务API；对kafka>消息格式做了重构

1.0和2.0版本： Kafka Streams的优化改进
使用时尽量保持服务器端版本和客户端版本一致

如何估算生产环境所需Kafka 服务器数量

假设公司的机房环境是千兆网络，即 1Gbps; 业务需求1 小时内处理 1TB 的业务数据；需要多少台 Kafka 服务器来完成这个业务呢？

带宽是 1Gbps，即每秒处理 1Gb, 假设 Kafka 会用到 70% 的带宽资源, 再额外预留出 2/3 的资源，即单台服务器使用带宽 700Mb / 3 ≈ 240Mbps;
1 小时内处理 1TB 数据, 根据这个目标，我们每秒需要处理 2336Mb (1024 * 1024 * 8 / 3600 )的数据，除以 240，约等于 10 台服务器；如果消息还需要额外复制两份，那么总的服务器台数还要乘以 3，即 30 台。

如何估算生产环境所需Kafka 的磁盘容量

假如每天1 亿条消息，每条消息大小1KB, 每条消息保存两份且留存两周的时间；那么kafka集群需要预留多少磁盘空间？

每天的消息大小为1 亿 * 1KB * 2 / 1000 / 1000 = 200GB；还要为索引等文件预留出 10% 的磁盘空间，那么两周所需要的磁盘空间为：200GB * 1.1 * 14 = 大约 3TB 左右；假设压缩比是 0.75，那么最后你需要规划的存储空间就是 0.75 * 3 = 2.25TB。

重要的生产运维参数

建议配置多个路径，且最好挂载到不同磁盘上
log.dirs：/home/kafka1,/home/kafka2,/home/kafka3

多个 Kafka 集群使用同一套 ZooKeeper 集群时
zookeeper.connect: zk1:2181,zk2:2181,zk3:2181/kafka1

listeners给内网访问； advertised.listeners主要是为外网访问用的；Broker 端和 Client 端应用配置中最好全部填写主机名
listeners：SSL: //localhost:9092
advertised.listeners：

是否允许自动创建 Topic
auto.create.topics.enable：false

是否允许 Unclean Leader 选举
unclean.leader.election.enable：false

是否允许定期进行 Leader 选举
auto.leader.rebalance.enable：false

都是控制一条消息数据被保存多长时间
log.retention.hours=168 表示默认保存 7 天的数据

指定 Broker 为消息保存的总磁盘容量大小
log.retention.bytes：值默认是 -1

控制 Broker 能够接收的最大消息大小
message.max.bytes：默认的 1000012 太少了，还不到 1MB

不丢失消息的参考配置

发送消息时使用带回调的接口
producer.send(msg, callback)

表明所有ISR中副本 Broker 都要接收到消息，该消息才算是“已提交”
Producer端的参数设置设置 acks = all

自动重试消息发送
Producer端的参数设置retries > 0

将消息多保存几份
Broker 端的参数 replication.factor >= 3

控制的是消息至少要被写入到多少个副本才算是“已提交”
Broker 端的参数 min.insync.replicas > 1；默认值为 1

确保 replication.factor > min.insync.replicas。如果两者相等，那么只要有一个副本挂机，整个分区就无法正常工作了

确保消息消费完成再提交
Consumer 端的参数 enable.auto.commit=false；并采用手动提交位移的方式

减少Rebalance

Consumer 端参数，多久没有接受到心跳移除consumer
建议session.timeout.ms = 6s 默认10s

Consumer 端参数，Consumer 实例发送心跳请求的频率，要保证 Consumer 实例在被判定为“dead”之前，能够发送至少 3 轮的心跳请求
建议heartbeat.interval.ms = 2s

Consumer 端参数，Consumer 端应用程序两次调用 poll 方法的最大时间间隔。超过Consumer 会主动发起“离开组”的请求（一般发生在手动提交）
建议max.poll.interval.ms 设置得大一点，比下游最大处理时间稍长一点；默认5分钟；或改小点max.poll.records（默认500）

参考资料
Kafka核心技术与实战