美文网首页
kafak生产运维相关

kafak生产运维相关

作者: 水流不流 | 来源:发表于2020-02-18 16:33 被阅读0次

    不同的发行版本

    • Apache kafak
    • Confluent kafka
    • CDH kafak

    迭代版本

    • 0.7版本 : 只提供了最基础的消息队列功能
    • 0.8版本 : 引入了副本机制
    • 0.9.0.0版本 : 增加安全认证/权限功能;使用java重写了新版本的消费者api;引入了kafak Connect组件;
    • 0.10.0.0版本 : 引入kafka Streams, 升级成分布式流处理平台
    • 0.11.0.0版本 : 提供了幂等性Producer API及事务API;对kafka>消息格式做了重构
    • 1.0和2.0版本 : Kafka Streams的优化改进
      使用时尽量保持服务器端版本和客户端版本一致

    如何估算生产环境所需Kafka 服务器数量

    假设公司的机房环境是千兆网络,即 1Gbps; 业务需求1 小时内处理 1TB 的业务数据;需要多少台 Kafka 服务器来完成这个业务呢?

    带宽是 1Gbps,即每秒处理 1Gb, 假设 Kafka 会用到 70% 的带宽资源, 再额外预留出 2/3 的资源,即单台服务器使用带宽 700Mb / 3 ≈ 240Mbps;
    1 小时内处理 1TB 数据, 根据这个目标,我们每秒需要处理 2336Mb (1024 * 1024 * 8 / 3600 )的数据,除以 240,约等于 10 台服务器; 如果消息还需要额外复制两份,那么总的服务器台数还要乘以 3,即 30 台。

    如何估算生产环境所需Kafka 的磁盘容量

    假如每天1 亿条消息,每条消息大小1KB, 每条消息保存两份且留存两周的时间;那么kafka集群需要预留多少磁盘空间?

    每天的消息大小为1 亿 * 1KB * 2 / 1000 / 1000 = 200GB; 还要为索引等文件预留出 10% 的磁盘空间,那么两周所需要的磁盘空间为:200GB * 1.1 * 14 = 大约 3TB 左右;假设压缩比是 0.75,那么最后你需要规划的存储空间就是 0.75 * 3 = 2.25TB。

    重要的生产运维参数

    • 建议配置多个路径,且最好挂载到不同磁盘上
      log.dirs:/home/kafka1,/home/kafka2,/home/kafka3

    • 多个 Kafka 集群使用同一套 ZooKeeper 集群时
      zookeeper.connect: zk1:2181,zk2:2181,zk3:2181/kafka1

    • listeners给内网访问; advertised.listeners主要是为外网访问用的;Broker 端和 Client 端应用配置中最好全部填写主机名
      listeners:SSL: //localhost:9092
      advertised.listeners:

    • 是否允许自动创建 Topic
      auto.create.topics.enable:false

    • 是否允许 Unclean Leader 选举
      unclean.leader.election.enable:false

    • 是否允许定期进行 Leader 选举
      auto.leader.rebalance.enable:false

    • 都是控制一条消息数据被保存多长时间
      log.retention.hours=168 表示默认保存 7 天的数据

    • 指定 Broker 为消息保存的总磁盘容量大小
      log.retention.bytes:值默认是 -1

    • 控制 Broker 能够接收的最大消息大小
      message.max.bytes:默认的 1000012 太少了,还不到 1MB

    不丢失消息的参考配置

    • 发送消息时使用带回调的接口
      producer.send(msg, callback)

    • 表明所有ISR中副本 Broker 都要接收到消息,该消息才算是“已提交”
      Producer端的参数 设置设置 acks = all

    • 自动重试消息发送
      Producer端的参数设置retries > 0

    • 将消息多保存几份
      Broker 端的参数 replication.factor >= 3

    • 控制的是消息至少要被写入到多少个副本才算是“已提交”
      Broker 端的参数 min.insync.replicas > 1; 默认值为 1

    • 确保 replication.factor > min.insync.replicas。如果两者相等,那么只要有一个副本挂机,整个分区就无法正常工作了

    • 确保消息消费完成再提交
      Consumer 端的参数 enable.auto.commit=false;并采用手动提交位移的方式

    减少Rebalance

    • Consumer 端参数,多久没有接受到心跳移除consumer
      建议session.timeout.ms = 6s 默认10s

    • Consumer 端参数,Consumer 实例发送心跳请求的频率,要保证 Consumer 实例在被判定为“dead”之前,能够发送至少 3 轮的心跳请求
      建议heartbeat.interval.ms = 2s

    • Consumer 端参数,Consumer 端应用程序两次调用 poll 方法的最大时间间隔。 超过Consumer 会主动发起“离开组”的请求(一般发生在手动提交)
      建议max.poll.interval.ms 设置得大一点,比下游最大处理时间稍长一点;默认5分钟; 或改小点max.poll.records(默认500)

    参考资料
    Kafka核心技术与实战

    相关文章

      网友评论

          本文标题:kafak生产运维相关

          本文链接:https://www.haomeiwen.com/subject/vgfgfhtx.html