美文网首页
【大数据进击】Spark中的广播变量Broadcast Vari

【大数据进击】Spark中的广播变量Broadcast Vari

作者: 及未来 | 来源:发表于2019-03-09 23:48 被阅读0次

    官方介绍

    A broadcast variable. Broadcast variables allow the programmer to keep a read-only variable cached on each machine rather than shipping a copy of it with tasks. They can be used, for example, to give every node a copy of a large input dataset in an efficient manner. Spark also attempts to distribute broadcast variables using efficient broadcast algorithms to reduce communication cost.

    使用背景

    在Spark的计算任务中,map, flatmap, reduce等算子操作时往往需要使用到变量;
    默认情况下,Driver会将变量传输给每一个task

    实际生产环境时,条件往往是这样的:

    1. task的数量是往往是很多的
    2. 大数据任务下使用的变量十分大
      这就进而造成:
      Driver传输到Task将会占用大量网络带宽,进而影响任务整体速度

    简介

    Spark作为一个优秀的大数据计算框架,自然也对这种情况做出了优化。那就是广播变量Broadcast variable,使用广播变量,有以下几个特点:

    1. 将广播变量传输一份副本到每个Worker
    2. 只读性
      如此以来,在每个Worker(节点机器)中,都有一份该变量,计算时task直接从本地获取即可,无需再耗费网络资源,但考虑到高并行时的并发写问题,广播变量只可读,不可写(累加器可写)。

    具体使用(Scala版)

    1. 创建广播变量
    val v2 =  sparkContext.broadcast(v1)
    
    1. 获取广播变量
    val v3 = v2.value
    

    如果喜欢这篇文章的话可以帮忙点个赞吗?这对我真的很重要!!

    相关文章

      网友评论

          本文标题:【大数据进击】Spark中的广播变量Broadcast Vari

          本文链接:https://www.haomeiwen.com/subject/oprypqtx.html