Spark中map、mappartition、foreach 以

Spark中map、mappartition、foreach 以

作者: alexlee666 | 来源:发表于2019-10-30 11:24 被阅读0次

Spark中map、mappartition、foreach 以
初探 forEach() 方法
spark基本Transform算子
mapPartitions
map 和forEach用法(添加parseInt的小尾巴)
js循环跳出
Js数组遍历对原数组的影响及返回值
JS基础题（2）
JS Array常用方法详解及兼容性代码（一）
JS 数组常用方法的实现

在 Spark 性能调优中，经常会被建议尽量用 mappartition 操作去替代 map 操作。本文将会对这一论断背后的原因进行阐述。

一、map 操作 V.S. mappartition 操作

map 操作：对 RDD 中的每个元素进行操作（可以理解为遍历），比如使用一个function则需要执行该 function n 次，其中 n 为元素个数；
mappartition 操作：对 RDD 中每个 partition 的 iterator 进行操作，比如使用一个 function 则每个 partition 只需要各执行该 function 1 次（一个partition中的所有元素被一次传给该 function）；

因此，存在如下结论：

map 操作： 执行 1 次 function 只处理 1 个元素（或者称为一条数据），比如 partition 中的元素较多，当前已经处理了 1000 个元素，在内存不足的情况下，Spark 可以通过GC等方法（比如将已处理掉的 1000 个元素从内存中回收）回收内存。因此，通常 map 操作不会导致OOM的异常；
mappartition 操作： 执行 1 次 function 需要接收该 partition 中的所有元素，因此一旦元素很多而处理内存不足，就容易导致OOM的异常；
一般而言，mappartition 的性能更高；初始化操作、数据库访问等操作适合使用 mappartition操作，这是因为：
- 假设需要对 RDD 中的每个元素做加密计算，在加密之前需要在每个 executor 中执行 initialization 操作，试想一下，如果该 initialization 放在 map 中执行将会导致该 initialization 被执行很多次，非常耗时；但是如果放在 mappartition 中则只需要每个 executor 中执行 1 次即可；
- 假设需要将 RDD 中的每个元素写入数据库中，这时候就应该把创建数据库的链接connection 操作放置在 mappartition 中，访问数据库操作本身就是个比较耗时的任务，如果该操作放在 map 中执行将会非常耗时且影响数据库的稳定。

二、foreach 操作 V.S. foreachpartition 操作

map 和 foreach 的区别在于：

前者是 transformation 操作（不会立即执行），后者是 action 操作（会立即执行）；
前者返回值是一个新 RDD，后者没有返回值。

其他的和 map V.S. mappartition 类似。

笔者水平有限，如有错误，敬请指正！

相关文章

Spark中map、mappartition、foreach 以
在 Spark 性能调优中，经常会被建议尽量用 mappartition 操作去替代 map 操作。本文将会对这...
初探 forEach() 方法
Map对象 Map.prototype.forEach() forEach() 方法将会以插入顺序对 Map 对象...
spark基本Transform算子
一、单个RDD的操作 1、map、mapPartition、mapPartitionsWithIndex map：...
mapPartitions
mapPartitions是map的一个变种。map的输入函数是应用于RDD中每个元素，而mapPartition...
map 和forEach用法(添加parseInt的小尾巴)
forEach： map map:和forEach非常相似，都是用来遍历数组中的每一项；区别：map的回调函数中支...
js循环跳出
for循环 forEach map $.each 相关文章链接：js forEach、each、map、 for...
Js数组遍历对原数组的影响及返回值
1.map和forEach 结果：map和forEach都不改变原数组，map返回一个新数组，forEach没有返...
JS基础题（2）
1. JavaScript 数组的函数 map/forEach/reduce/filter map forEach...
JS Array常用方法详解及兼容性代码（一）
[ES5中，Array新增API之forEach、filter、map、reduce] 一： forEach fo...
JS 数组常用方法的实现
forEach & map & reduce & concat 的实现。 1. forEach 2. map 3....

网友评论

本文标题：Spark中map、mappartition、foreach 以

本文链接：https://www.haomeiwen.com/subject/etxovctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Spark中map、mappartition、foreach 以|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！