groupBykey:不会预聚合数据,也就是直接将数据经过shuffle给下一个阶段,性能较慢
reduceByKey:会预聚合数据,也就是将聚合的数据通过shuffle给下一个阶段,传递的数据少了。性能较快,但是要考虑应用场景。
譬如:不需要聚合的场景
groupBykey:不会预聚合数据,也就是直接将数据经过shuffle给下一个阶段,性能较慢
reduceByKey:会预聚合数据,也就是将聚合的数据通过shuffle给下一个阶段,传递的数据少了。性能较快,但是要考虑应用场景。
譬如:不需要聚合的场景
本文标题:groubyKey和reduceBykey的区别
本文链接:https://www.haomeiwen.com/subject/zienrctx.html
网友评论