spark之广播变量&累加器

spark之广播变量&累加器

作者: 我去图书馆了 | 来源:发表于2019-10-04 17:38 被阅读0次

spark之广播变量&累加器
Spark中的共享变量---广播变量和累加器
5.Spark学习(Python版本)：共享变量
Spark—广播变量
简述spark中共享变量的基本原理和用途
spark广播变量累加器
Spark累加器及广播变量
Spark 之广播变量
Java Spark 简单示例（二）累加器广播变量
Spark中广播变量和累加器

Spark两种共享变量：广播变量（broadcast variable）与累加器（accumulator）。累加器用来对信息进行聚合，而广播变量用来高效分发较大的对象。

1、广播变量的引入：

（1）没有引入广播变量前的情形：

Spark 会自动把闭包中所有引用到的变量发送到工作节点上。虽然这很方便，但也很低效。原因有二：首先，默认的任务发射机制是专门为小任务进行优化的；其次，事实上你可能会在多个并行操作中使用同一个变量，但是 Spark 会为每个操作分别发送。

用一段代码来更直观的解释：

image

上述代码中：

list是在driver端创建的，但是因为需要在excutor端执行task，所以driver会把list以task的形式发送到excutor端，如果有很多个task，就会有很多给excutor端携带很多个list，如果这个list非常大的时候，就可能会造成内存溢出（如下图所示）。这个时候就引出了广播变量。上述代码的filter算子每处理一个line，就会发送给executor一个task(包含一个list)。

image

（2）引入广播变量：

image

将list设置为广播变量，当executor端用到这个list时，在每个executor端会有一个叫blockManager的对象来管理被声明为广播变量。下次driver再发送task后，就不需要再携带list了。因为此时task到达executor，首先去blockManager中查找是否有执行本次task需要的广播变量。如果存在，直接拿来用。但是广播变量在executor端是不可以被改变的。综上：

不能将RDD广播除去，可以将RDD的结果广播出去，例如rdd.collect()
广播变量只能在drvier端进行定义，在executor端使用，不能在executor中改变广播变量的值（如果在程序中改变的话，直接报错哦）。

具体的使用：

[scala代码]

image

具体的使用

[java代码]

image

2、累加器

（1）问题抛出：

image

image

那么有没有一种功能，可以让driver统计所有executor执行变量的累加和呢？即让driver打印变量的值为100呢？我们的累加器可以实现。

（2）累加器的使用

[scala代码]

image

[java代码]

image

关于累加器需要注意的是：

（1）如下图注释所示，在executor中打印累加器，spark1.6和spark2.3还是有区别的。

image

（2）累加器并须在driver端进行定义。（不能在executor端进行定义，需要使用sc进行定义）

（3）在1.6版本直接使用sc.accumulator(0)，直接传一个初始值(这里是0)就可以了。但是在2.3版本中有了区别：

image

另外就是两个版本中自定义累加器也有比较大的变化。

相关文章

spark之广播变量&累加器
Spark两种共享变量：广播变量（broadcast variable）与累加器（accumulator）。累加器...
Spark中的共享变量---广播变量和累加器
一.广播变量和累加器的作用累加器（集群规模之间的大变量）：做Spark的全局统计使用广播变量（集群规模间的大常量）...
5.Spark学习(Python版本)：共享变量
Spark提供了两种类型的变量：广播变量（broadcast variables）和累加器（accumulator...
Spark—广播变量
广播变量 Spark有两种共享变量——累加器、广播变量。广播变量可以让程序高效地向所有工作节点发送一个较大的只读值...
简述spark中共享变量的基本原理和用途
共享变量包含两个，广播和累加器。累加器（accumulator）是spark中提供的一种分布式的变量机制，其原理类...
spark广播变量累加器
背景在spark程序中，当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时，Spa...
Spark累加器及广播变量
累加器提供了将工作节点中的值聚合到驱动器程序中的简单语法。累加器的一个常见用途是在调试时对作业执行过程中的事件进...
Spark 之广播变量
1. Background Spark 中有两种共享变量，其中一个是累加器，另一个是广播变量。前者解决了 Spar...
Java Spark 简单示例（二）累加器广播变量
广播变量在最后补充。今天的示例主要介绍一下累加器的使用。Spark官方文档的Action介绍中有提到 forea...
Spark中广播变量和累加器
一、前述 Spark中因为算子中的真正逻辑是发送到Executor中去运行的，所以当Executor中需要引用外部...

网友评论

spark

本文标题：spark之广播变量&累加器

本文链接：https://www.haomeiwen.com/subject/tifrlqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

spark

spark之广播变量&累加器

关于我们|服务条款|联系我们|spark之广播变量&累加器|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！