美文网首页
spark 调优实践

spark 调优实践

作者: pcqlegend | 来源:发表于2018-01-04 11:31 被阅读0次

1、数据倾斜
多个topic数据量不同,导致task执行时间差距很大,这个时候则需要重新进行repartition
2、小batch process执行时间比大batch执行时间 长
原因在于 小batch的数据量小,如果partition较多,则用于数据分发时候数据的网络消耗时间比较大。
3、考虑不同topic的分流 topic内包含各种业务数据,但是当前的streaming只需要其中某一个。则需要做一个分流器
简单总结:后续详尽的描述一下。有问题欢迎讨论

相关文章

网友评论

      本文标题:spark 调优实践

      本文链接:https://www.haomeiwen.com/subject/tdjfnxtx.html