Spark 2.X 上累加器(Accumulators)不能用了

Spark 2.X 上累加器(Accumulators)不能用了

作者: 俺是亮哥 | 来源:发表于2017-04-06 15:16 被阅读410次

Spark 2.X 上累加器(Accumulators)不能用了
MongoDB聚合管道——累加器（转）
SparkContext组件之SparkConf
spark1.6.3执行hivesql遇到left join 时
Spark 3.0发布啦，改进SQL，弃Python 2，更好的
Spark基础
spark之广播变量&累加器
Spark累加器
【2018-04-10】【2.1.1】spark sql操作my
184、Spark 2.0之Spark 2.x与1.x对比以及分

本文基于Spark2.1.0版本

今天整理累加器的知识点时，发现实例化一个Accumulator对象，编译无法通过：

Spark 2.x版本使用Accumulator类时编译出错，提示类过时

查了一下Spark2.x的API，发现对Accumulator类的定义发生了变化：

2.0版本前的累加器的类定义

2.x版本的累加器类定义

新的累加器创建的方法如下：

可以看出，新版的累加器有了如下的改良：

1，不用传初始化值参数，默认是从0开始；

2，创建累加器时，可以指定累加器的名字，这样在Driver 4040 Web UI的Task显示时，可以看到该名字的累加器在各Task中的实际的值（如果不指定累加器名字，则不会在Web UI上显示）-- 这点我说的不准确，旧的累加器类也有这个功能，只不过我一直没用过，惭愧。。。

3，新增了reset方法，可以重置该累加器归零（还有几个新的方法，不一一举例）

So，按照API的指示，修改如下：

编译通过，功能正常

在Driver 的4040 Web UI上观察，发现Task table增加了 Accumulators 列，能看到每个Task上的叫做ErrorCnt 的累加器的值（可以同时定义多个累加器）

迭代器使用起来很简单，很方便，但在使用过程中一定要注意（新手容易忽略）：

因为Spark 相同的Task有可能被重复执行多次（容错性导致），所以累加器的值很有可能被累加多次，那么得到的结果就不准确了，所以一般把累加器放在行动操作中来使用，只有这样，Spark才会把每个任务对各累加器的修改应用一次。

下面举一个foreach的行动操作的例子：

官网说明

java代码如下：

相关文章

Spark 2.X 上累加器(Accumulators)不能用了
本文基于Spark2.1.0版本今天整理累加器的知识点时，发现实例化一个Accumulator对象，编译无法通过...
MongoDB聚合管道——累加器（转）
累加器（Accumulators）累加器本来只能使用与project。当在project中使用时，累加器则是针对...
SparkContext组件之SparkConf
sparkContext是spark程序的入口，可以创建RDD、accumulators和broadcast sp...
spark1.6.3执行hivesql遇到left join 时
在spark 上跑hive sql 脚本，在spark 2.x以上跑没问题，hive上没问题，spark1.6上...
Spark 3.0发布啦，改进SQL，弃Python 2，更好的
Apache Spark 3.0.0正式发布啦，Apache Spark 3.0是在Spark 2.x的基础上开发...
Spark基础
Spark 1.x 和Spark 2.x 区别 Spark 2.x 只保留SparkSession作为程序的入口。...
spark之广播变量&累加器
Spark两种共享变量：广播变量（broadcast variable）与累加器（accumulator）。累加器...
Spark累加器
1. spark 累加器的原理： 2. 系统累加器 2. 自定义累加器（实现单词统计的累加）
【2018-04-10】【2.1.1】spark sql操作my
spark 2.X与1.x的区别 spark sql 2.x以上版本和1.x版本有个很大的区别：spark1.x的...
184、Spark 2.0之Spark 2.x与1.x对比以及分
Spark 2.x与1.x对比 Spark 1.x：Spark Core（RDD）、Spark SQL（SQL+D...

网友评论

本文标题：Spark 2.X 上累加器(Accumulators)不能用了

本文链接：https://www.haomeiwen.com/subject/lyfqattx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

Spark学习之路

热点阅读

Spark学习之路

Spark 应用

spark

Spark在简书

关于我们|服务条款|联系我们|Spark 2.X 上累加器(Accumulators)不能用了|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！