美文网首页Spark
Spark广播变量存储读取机制

Spark广播变量存储读取机制

作者: 麦子星星 | 来源:发表于2019-03-25 12:25 被阅读0次

广播变量的读取比较复杂,首先读取端会尝试从本地BlockManager直接读取未切分的完整数据;如果不存在会尝试从本地BlockManager读取切分的数据块;如果都不存在,则从远端的driver或executor拉取,拉取每个数据块时,都会随机选择一个持有该数据块的executor或driver进行拉取,这样可以减少各个节点的网络IO压力。远端拉取来数据块会拷贝一份存储在本地BlockManager,以便其他executor拉取数据用。如果广播变量是读取数据块,会将数据块拼回完整数据对象,然后会将完成的数据对象拷贝一份存储在本地BlockManager,以便executor上执行的tasks快速读取广播变量。

由此可以看出广播变量会在每个节点存储两份:

- 一份是未切分的完整数据对象,用于executor或driver上执行的tasks快速读取

- 一份是切分后的数据,用于其他executor拉取对应的数据块。

spark的广播变量的写入比较简单,写入本地BlockManager两份数据即可。读取比较复杂,这里也真正的体现了p2p的BitTorrent协议的实现

相关文章

网友评论

    本文标题:Spark广播变量存储读取机制

    本文链接:https://www.haomeiwen.com/subject/oyevvqtx.html