Spark广播变量存储读取机制

作者: 麦子星星 | 来源:发表于2019-03-25 12:25 被阅读0次

Spark广播变量存储读取机制
spark BlockManager 解析
Spark的广播变量机制
Spark-broadcast
spark广播变量
Spark广播变量
Spark—广播变量
spark广播变量
简述spark中共享变量的基本原理和用途
spark使用广播变量

广播变量的读取比较复杂，首先读取端会尝试从本地BlockManager直接读取未切分的完整数据；如果不存在会尝试从本地BlockManager读取切分的数据块；如果都不存在，则从远端的driver或executor拉取，拉取每个数据块时，都会随机选择一个持有该数据块的executor或driver进行拉取，这样可以减少各个节点的网络IO压力。远端拉取来数据块会拷贝一份存储在本地BlockManager，以便其他executor拉取数据用。如果广播变量是读取数据块，会将数据块拼回完整数据对象，然后会将完成的数据对象拷贝一份存储在本地BlockManager，以便executor上执行的tasks快速读取广播变量。

由此可以看出广播变量会在每个节点存储两份：

- 一份是未切分的完整数据对象，用于executor或driver上执行的tasks快速读取

- 一份是切分后的数据，用于其他executor拉取对应的数据块。

spark的广播变量的写入比较简单，写入本地BlockManager两份数据即可。读取比较复杂，这里也真正的体现了p2p的BitTorrent协议的实现

网友评论

Spark

本文标题：Spark广播变量存储读取机制

本文链接：https://www.haomeiwen.com/subject/oyevvqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Spark广播变量存储读取机制

相关文章