1、数据倾斜
多个topic数据量不同,导致task执行时间差距很大,这个时候则需要重新进行repartition
2、小batch process执行时间比大batch执行时间 长
原因在于 小batch的数据量小,如果partition较多,则用于数据分发时候数据的网络消耗时间比较大。
3、考虑不同topic的分流 topic内包含各种业务数据,但是当前的streaming只需要其中某一个。则需要做一个分流器
简单总结:后续详尽的描述一下。有问题欢迎讨论
1、数据倾斜
多个topic数据量不同,导致task执行时间差距很大,这个时候则需要重新进行repartition
2、小batch process执行时间比大batch执行时间 长
原因在于 小batch的数据量小,如果partition较多,则用于数据分发时候数据的网络消耗时间比较大。
3、考虑不同topic的分流 topic内包含各种业务数据,但是当前的streaming只需要其中某一个。则需要做一个分流器
简单总结:后续详尽的描述一下。有问题欢迎讨论
本文标题:spark 调优实践
本文链接:https://www.haomeiwen.com/subject/tdjfnxtx.html
网友评论