【大数据进击】Spark中的广播变量Broadcast Vari

作者: 及未来 | 来源:发表于2019-03-09 23:48 被阅读0次

官方介绍

A broadcast variable. Broadcast variables allow the programmer to keep a read-only variable cached on each machine rather than shipping a copy of it with tasks. They can be used, for example, to give every node a copy of a large input dataset in an efficient manner. Spark also attempts to distribute broadcast variables using efficient broadcast algorithms to reduce communication cost.

使用背景

在Spark的计算任务中，map, flatmap, reduce等算子操作时往往需要使用到变量；
默认情况下，Driver会将变量传输给每一个task。

实际生产环境时，条件往往是这样的：

task的数量是往往是很多的
大数据任务下使用的变量十分大
这就进而造成：
Driver传输到Task将会占用大量网络带宽，进而影响任务整体速度。

简介

Spark作为一个优秀的大数据计算框架，自然也对这种情况做出了优化。那就是广播变量Broadcast variable,使用广播变量，有以下几个特点：

将广播变量传输一份副本到每个Worker
只读性
如此以来，在每个Worker（节点机器）中，都有一份该变量，计算时task直接从本地获取即可，无需再耗费网络资源，但考虑到高并行时的并发写问题，广播变量只可读，不可写（累加器可写）。

具体使用（Scala版）

创建广播变量

val v2 =  sparkContext.broadcast(v1)

获取广播变量

val v3 = v2.value

如果喜欢这篇文章的话可以帮忙点个赞吗？这对我真的很重要！！

网友评论

本文标题：【大数据进击】Spark中的广播变量Broadcast Vari

本文链接：https://www.haomeiwen.com/subject/oprypqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！