美文网首页
kafka优化笔记

kafka优化笔记

作者: 架构师老狼 | 来源:发表于2021-11-14 21:39 被阅读0次

    1 mq的作用

    解耦、异步、削峰填谷

    2 kafka架构

    kafka架构

    1)Producer :消息生产者,就是向 kafka broker 发消息的客户端;
    2)Consumer :消息消费者,向 kafka broker 取消息的客户端;
    3)Consumer Group (CG):消费者组,由多个 consumer 组成。消费者组内每个消费者负
    责消费不同分区的数据,一个分区只能由一个组内消费者消费;消费者组之间互不影响。所有的消费者都属于某个消费者组,即消费者组是逻辑上的一个订阅者。
    4)Broker :一台 kafka 服务器就是一个 broker。一个集群由多个 broker 组成。一个 broker
    可以容纳多个 topic。
    5)Topic :可以理解为一个队列,生产者和消费者面向的都是一个 topic;
    6)Partition:为了实现扩展性,一个非常大的 topic 可以分布到多个 broker(即服务器)上,
    一个 topic 可以分为多个 partition,每个 partition 是一个有序的队列;
    7)Replica:副本,为保证集群中的某个节点发生故障时,该节点上的 partition 数据不丢失,且 kafka 仍然能够继续工作,kafka 提供了副本机制,一个 topic 的每个分区都有若干个副本,一个 leader 和若干个 follower。
    8)leader:每个分区多个副本的“主”,生产者发送数据的对象,以及消费者消费数据的对象都是 leader。
    9)follower:每个分区多个副本中的“从”,实时从 leader 中同步数据,保持和 leader 数据
    的同步。leader 发生故障时,某个 follower 会成为新的 follower。

    3 kafka存储机制

    1)topic 是逻辑上的概念,而 partition 是物理上的概念,每个 partition 对应于一个 log 文件,该 log 文件中存储的就是 producer 生产的数据。Producer 生产的数据会被不断追加到该log 文件末端,且每条数据都有自己的 offset。消费者组中的每个消费者,都会实时记录自己消费到了哪个 offset,以便出错恢复时,从上次的位置继续消费。
    2)由于生产者生产的消息会不断追加到 log 文件末尾,为防止 log 文件过大导致数据定位效率低下,Kafka 采取了分片和索引机制,将每个 partition 分为多个 segment。每个 segment对应两个文件——“.index”文件和“.log”文件。这些文件位于一个文件夹下,该文件夹的命名规则为:topic 名称+分区序号。例如,first 这个 topic 有三个分区,则其对应的文件夹为 first-0,first-1,first-2。
    3)index 和 log 文件以当前 segment 的第一条消息的 offset 命名。“.index”文件存储大量的索引信息,“.log”文件存储大量的数据,索引文件中的元数据指向对应数据文件中 message 的物理偏移地址。

    4 producer分区原则

    producer 发送的数据封装成一个 ProducerRecord 对象。
    1)指明 partition 的情况下,直接将指明的值直接作为 partiton 值;
    2)没有指明 partition 值但有 key 的情况下,将 key 的 hash 值与 topic 的 partition数进行取余得到 partition 值;
    3)既没有 partition 值又没有 key 值的情况下,第一次调用时随机生成一个整数(后面每次调用在这个整数上自增),将这个值与 topic 可用的 partition 总数取余得到 partition值,也就是常说的 round-robin 算法。

    5 生产者丢数据?

    1)副本同步策略

    • 半数以上完成同步,就发送 ack 延迟低 选举新的 leader 时,容忍 n 台节点的故障,需要 2n+1 个副
    • 本全部完成同步,才发送ack 选举新的 leader 时,容忍 n 台 节点的故障,需要 n+1 个副本 延迟高
    val properties = new Properties
    properties.put("bootstrap.servers", broker_list)
    properties.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer")
    properties.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer")
    properties.put("enable.idempotence",(true: java.lang.Boolean)) //幂等性、开启事务
    properties.put(ProducerConfig.ACKS_CONFIG, "-1")
    var producer: KafkaProducer[String, String] = null
    try
      producer = new KafkaProducer[String, String](properties)
    catch {
      case e: Exception => e.printStackTrace()
    }
    producer
    
    • 极端情况设置ProducerConfig.RETRY_CONFIG
      2)ISR
    • Leader 维护了一个动态的 in-sync replica set (ISR),意为和 leader 保持同步的 follower 集合。当 ISR 中的 follower 完成数据的同步之后,leader 就会给 follower 发送 ack。如果 follower长时间 未 向 leader 同 步 数 据 , 则 该 follower 将 被 踢 出 ISR , 该 时 间 阈 值 由replica.lag.time.max.ms 参数设定。Leader 发生故障之后,就会从 ISR 中选举新的 leader。

    6 kafka丢数据?

    1)给 topic 设置 replication.factor 参数:这个值必须大于 1,要求每个 partition 必须有至少 2 个副本。
    2)在 Kafka 服务端设置 min.insync.replicas 参数:这个值必须大于 1,这个是要求一个 leader 至少感知到有至少一个 follower 还跟自己保持联系,没掉队,这样才能确保 leader 挂了还有一个 follower 吧。

    7 消费者丢数据?

    • 关闭自动提交 offset,在处理完之后自己手动提交 offset,就可以保证数据不会丢
    // kafka消费者配置
      var kafkaParam = collection.mutable.Map(
        "bootstrap.servers" -> broker_list, //用于初始化链接到集群的地址
        "key.deserializer" -> classOf[StringDeserializer],
        "value.deserializer" -> classOf[StringDeserializer],
        //用于标识这个消费者属于哪个消费团体
        "group.id" -> "gmall_group",
        //latest自动重置偏移量为最新的偏移量
        "auto.offset.reset" -> "latest",
        //如果是true,则这个消费者的偏移量会在后台自动提交,但是kafka宕机容易丢失数据
        //如果是false,会需要手动维护kafka偏移量
        "enable.auto.commit" -> (false: java.lang.Boolean)
      )
    
    // 存储每个分区的offset
    def saveOffset(topic: String, groupId: String, offsetRanges: Array[OffsetRange]): Unit = {
        //拼接redis中操作偏移量的key
        var offsetKey = "offset:" + topic + ":" + groupId
    
        //定义java的map集合,用于存放每个分区对应的偏移量
        val offsetMap: util.HashMap[String, String] = new util.HashMap[String, String]()
    
        //对offsetRanges进行遍历,将数据封装offsetMap
        for (offsetRange <- offsetRanges) {
          val partitionId: Int = offsetRange.partition
          val fromOffset: Long = offsetRange.fromOffset
          val untilOffset: Long = offsetRange.untilOffset
    
          offsetMap.put(partitionId.toString, untilOffset.toString)
          println("保存分区" + partitionId + ":" + fromOffset + "----->" + untilOffset)
        }
    
        val jedis: Jedis = MyRedisUtil.getJedisClient()
        jedis.hmset(offsetKey, offsetMap)
        jedis.close()
      }
    

    8 重复消费

    • Kafka 实际上有个 offset 的概念,就是每个消息写进去,都有一个 offset,代表消息的序号,然后 consumer 消费了数据之后,每隔一段时间(定时定期),会把自己消费过的消息的 offset 提交一下,表示“我已经消费过了,下次我要是重启啥的,你就让我继续从上次消费到的 offset 来继续消费吧”。
    • 新版的 Kafka 已经将 offset 的存储从 Zookeeper 转移至 Kafka brokers,并使用内部位移主题 __consumer_offsets 进行存储。
    • producer事务。为了实现跨分区跨会话的事务,需要引入一个全局唯一的 Transaction ID,并将 Producer获得的PID 和Transaction ID 绑定。这样当Producer 重启后就可以通过正在进行的 Transaction ID 获得原来的 PID。
    // 开启producer事务
    properties.put("enable.idempotence",(true: java.lang.Boolean)) //幂等性、开启事务
    

    相关文章

      网友评论

          本文标题:kafka优化笔记

          本文链接:https://www.haomeiwen.com/subject/rgoxtrtx.html