Spark+Kafka如何限速的问题

作者: bd8941f5f5cc | 来源:发表于2019-05-07 12:51 被阅读11次

Spark+Kafka如何限速的问题
火力全开！限速是不存在的！
如此限速的高速！LOW！
【百度网盘免限速下载器】Proxyee down mac版
【百度网盘免限速下载器】Proxyee down mac版
全国高速将统一限速标志！
apache站点优化--限速
linux网络设置限速/丢包/延时/乱序
下载限速
iOS网络限速问题

最近太忙了，上一次更新还是半个月前。不过我觉得终究还是要更新一下的，只是这次实在没时间写什么心得体会或是讨论之类的了，就拿在知乎上回答的一个帖子”偷懒“一下好了。

这个帖子是在知乎上回答如何为Spark Streaming + Kafka应用限速的。同样的问题在知乎上也碰到过几次，还是具有一定的普遍性的，故我这里直接顺手牵羊了，省的我无中生有写一些我觉得有用的东西，实际上并不是那么回事。要知道拿来主义还是无懈可击的——好久没玩三国杀了，纪念一下~

问题是这样的：SparkStreaming消费Kafka数据的时候，当有大量初始化数据时会拖累整个streaming程序的运行，问有什么办法？

总体来说这个问题大概有两种解决思路：1.在Spark端设置限速；2.在Kafka端设置限速。

Spark端限速的方法知乎上已有很多帖子说过了，主要的思路是设置不同的参数，比如在Direct模式下设置spark.streaming.kafka.maxRatePerPartition，receiver模式下设置spark.streaming.receiver.maxRate。它们都是控制每秒处理的消息数。应该说目前使用Direct模式的比较多，因此你需要适当地调整spark.streaming.kafka.maxRatePerPartition值。

帖子中的提问题还提出一种思路，即设置spark.streaming.dynamicAllocation.enabled=true打开动态资源分配姑且也可一试吧。有点令人惊讶的是，Spark官网貌似没有这个参数的解释，不知道是否是个疏漏。跑题一下，看来文档的更新在哪个项目中都是一件容易出错的事情。比如Kafka 2.2.0版本新引入的max.connections就没有记录在官网的配置列表中，再加上我有个PR已经pending我一个月了都没有任何回复，我有时真的怀疑社区committer是不是都在忙Kafka Summit，而把日常的PR review都给忘了。。。。好吧，纯属吐槽一下，不针对任何人。

对大数据以及人工智能概念都是模糊不清的，该按照什么线路去学习，学完往哪方面发展，想深入了解，想学习的同学欢迎加入大数据学习qq群：458345782，有大量干货（零基础以及进阶的经典实战）分享给大家，并且有清华大学毕业的资深大数据讲师给大家免费授课，给大家分享目前国内最完整的大数据高端实战实用学习流程体系。从java和linux入手，其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相关知识一一分享！

回到限速的话题，在Kafka端设置限速有两种办法：

1. 设置broker端参数quota.consumer.default。比如quota.consumer.default=15728640表示将连入该broker的所有consumer的TPS降到15MB/s以下。此参数的好处在于全局生效简单易用，对broker上所有consumer都是”一视同仁“；缺陷也在于此，无法单独为个别consumer限速，故该方法在0.11.0.0版本之后已经不推荐使用。

2. 通过kafka-configs命令。比如下面命令是为client.id为clientA的consumer设置限速：

$ bin/kafka-configs.sh --zookeeper localhost:2181

--alter

--add-config'consumer_byte_rate=15728640'

--entity-type clients

--entity-name clientA

此命令只为client.id=clientA的consumer设置了限速，故在Spark端你还需要显式设置client.id，比如：

Map<String,Object>kafkaParams=newHashMap<>();

...

kafkaParams.put("client.id","clientA");

...

JavaInputDStream<ConsumerRecord<String,String>>