kafka数据丢失问题

作者: 耳威巴帝 | 来源:发表于2018-01-19 10:24 被阅读0次

数据丢失为大事，针对数据丢失的问题我们排查结果如下。
第一：是否存在数据丢失的问题？
存在，且已重现。

第二：是在什么地方丢失的数据，是否是YDB的问题？
数据丢失是在导入阶段，数据并没有写入到Kafka里面，所以YDB也就不会从Kafka里面消费到缺失的数据，数据丢失与延云YDB无关。

第三：是如何发现有数据丢失？
1.测试数据会一共创建365个分区，每个分区均是9亿数据，如果最终每个分区还是9亿（多一条少一条均不行），则数据完整。
2.测试开始第二天，开始有丢失数据的现象，且丢失的数据越来越多。

第四：如何定位到是写入端丢失数据的，而不是YDB消费丢失数据的？
kafka支持数据的重新回放的功能(换个消费group)，我们清空了ydb的所有数据，重新用kafka回放了原先的数据。
如果是在ydb消费端丢失数据，那么第二遍回放数据的结果，跟第一次消费的数据在条数上肯定会有区别,完全一模一样的几率很低。
数据回放结果为：与第一次回放结果完全一样，可以确认为写入段丢失。

第五：写入kafka数据为什么会丢失？
导入数据我们采用的为kafka给的官方的默认示例，官方默认并没有处理网络负载很高或者磁盘很忙写入失败的情况（网上遇到同类问题的也很多）
一旦网络中断或者磁盘负载很高导致的写入失败，并没有自动重试重发消息。
而我们之前的测试，
第1次测试是在共享集群环境上做的测试，由于有其他任务的影响，网络与负载很不稳定，就会导致数据丢失。
第2次测试是在独立集群，并没有其他任务干预，但是我们导入程序与kafka不在一台机器上，而我们又没有做限速处理（每小时导入5亿条数据）
千兆网卡的流量常态在600~800M左右，如果此时突然又索引合并，瞬间的网络跑满是很正常的，丢包也是很正常的。
延云之前持续压了20多天，确实一条数据没有丢失，究其原因是导入程序与kafka在同一个机器上，且启用了限速。

第六：这个问题如何解决？
官方给出的默认示例并不可靠，并没有考虑到网络繁忙的情况，并不适合生产。
故kafka一定要配置上消息重试的机制，并且重试的时间间隔一定要长一些，默认1秒钟并不符合生产环境（网络中断时间有可能超过1秒）。
延云认为，增加如下参数会较大幅度的减少kafka写入数据照成的数据丢失，在公司实测，目前还没遇到数据丢失的情况。

    //producer用于压缩数据的压缩类型。默认是无压缩。正确的选项值是none、gzip、snappy。压缩最好用于批量处理，批量处理消息越多，压缩性能越好
     props.put("compression.type", "gzip");
     //增加延迟
     props.put("linger.ms", "50");
     //这意味着leader需要等待所有备份都成功写入日志，这种策略会保证只要有一个备份存活就不会丢失数据。这是最强的保证。，
     props.put("acks", "all");
     //设置大于0的值将使客户端重新发送任何数据，一旦这些数据发送失败。注意，这些重试与客户端接收到发送错误时的重试没有什么不同。允许重试将潜在的改变数据的顺序，如果这两个消息记录都是发送到同一个partition，则第一个消息失败第二个发送成功，则第二条消息会比第一条消息出现要早。
     props.put("retries ", 30);
     props.put("reconnect.backoff.ms ", 20000);
     props.put("retry.backoff.ms", 20000);

网友评论

分布式相关

本文标题：kafka数据丢失问题

本文链接：https://www.haomeiwen.com/subject/gmhooxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

kafka数据丢失问题

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

分布式相关