官方介绍
A broadcast variable. Broadcast variables allow the programmer to keep a read-only variable cached on each machine rather than shipping a copy of it with tasks. They can be used, for example, to give every node a copy of a large input dataset in an efficient manner. Spark also attempts to distribute broadcast variables using efficient broadcast algorithms to reduce communication cost.
使用背景
在Spark的计算任务中,map, flatmap, reduce等算子操作时往往需要使用到变量;
默认情况下,Driver会将变量传输给每一个task。
实际生产环境时,条件往往是这样的:
- task的数量是往往是很多的
- 大数据任务下使用的变量十分大
这就进而造成:
Driver传输到Task将会占用大量网络带宽,进而影响任务整体速度。
简介
Spark作为一个优秀的大数据计算框架,自然也对这种情况做出了优化。那就是广播变量Broadcast variable,使用广播变量,有以下几个特点:
- 将广播变量传输一份副本到每个Worker
- 只读性
如此以来,在每个Worker(节点机器)中,都有一份该变量,计算时task直接从本地获取即可,无需再耗费网络资源,但考虑到高并行时的并发写问题,广播变量只可读,不可写(累加器可写)。
具体使用(Scala版)
- 创建广播变量
val v2 = sparkContext.broadcast(v1)
- 获取广播变量
val v3 = v2.value
如果喜欢这篇文章的话可以帮忙点个赞吗?这对我真的很重要!!
网友评论