map 和 mapPartitions

map 和 mapPartitions

作者: 0_9f3a | 来源:发表于2018-01-02 21:10 被阅读0次

spark第一天
map 和 mapPartitions
2020-11-24-Spark-3(Spark-Core)
spark之旅-2.spark 算子 python
Spark-算子-transerformation
mapPartitions
138、Spark核心编程进阶之mapPartitions以及学
Spark学习（六）：map & mapPartitions
Spark Core 性能调优总结
spark优化技巧(四)

map:
遍历算子，可以遍历RDD中每一个元素，遍历的单位是每条记录

mapPartitions
遍历算子，可以改变RDD格式，会提高RDD并行度，遍历单位是partition，也就是在遍历之前它会将一个partition的数据加载到内存中

那么问题来了用上面的两个算子遍历一个RDD谁的效率高？

mapPartitions算子效率高

mapPartitions算子占用内存多，如果一个partition的计算结果非常非常大，那么可能造成OOM，怎么解决？

repartition算子来增加RDD的分区数，那么每一个partition的计算结果就减少了很多。

mapPartitions应用场景
一般在将一个RDD的计算结果写入到数据库(mysql oracle redis)中时会使用这个算子，这个算子适合将数据插入到数据库

相关文章

spark第一天
map方法 fillter flatmap mapPartitions mapPartitions是map的一个变...
map 和 mapPartitions
map:遍历算子，可以遍历RDD中每一个元素，遍历的单位是每条记录 mapPartitions遍历算子，可以改变R...
2020-11-24-Spark-3(Spark-Core)
RDD算子 map mapPartitions mapPartitionsWithIndex 1.map算子演...
spark之旅-2.spark 算子 python
map flatMap glom mapPartitions mapPartitionsWithIndex get...
Spark-算子-transerformation
Map[一对一] flatMap[一对多] mapPartitions mapPartitionsWithInde...
mapPartitions
mapPartitions是map的一个变种。map的输入函数是应用于RDD中每个元素，而mapPartition...
138、Spark核心编程进阶之mapPartitions以及学
mapPartitions,类似map，不同之处在于，map算子，一次就处理一个partition中的一条数据,m...
Spark学习（六）：map & mapPartitions
对于一些没有用过的函数或者操作，看文字描述总是觉得很晦涩，很难理解，所以学习的时候我比较倾向于先从小例程入手，以便...
Spark Core 性能调优总结
使用 mapPartitions,按每个分区计算结果如果每条记录的开销太大，例： rdd.map{x=>conn...
spark优化技巧(四)
算子调优 4.1 MapPartitions提升Map类操作性能 spark中，最基本的原则，就是每个task处理...

网友评论

Spark知识点

本文标题：map 和 mapPartitions

本文链接：https://www.haomeiwen.com/subject/sagqnxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

Spark知识点

关于我们|服务条款|联系我们|map 和 mapPartitions|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！