大数据开发：Spark通讯架构解析

作者: 成都加米谷大数据 | 来源:发表于2021-06-11 18:08 被阅读0次

大数据开发：Spark通讯架构解析
Spark SQL运行原理和架构（十一）
面试 | Spark知识点@2019-01-06
Spark ML-2
扣丁学堂大数据培训Spark架构运行及优势详解
antlr4 + spark sql对业务sql进行解析
第2课:通过案例对 spark streaming 透彻理解三板
阿里巴巴资深架构师熬几个通宵肛出来的Spark+Hadoop+中
阿里巴巴资深架构师熬几个通宵肛出来的Spark+Hadoop+中
大数据开发必读书目（持续更新）

从系统架构的角度来说，通讯是一个非常重要的环节，尤其是在分布式集群环境下，大数据处理任务的效率，通讯是至关重要的部分。Spark是大数据生态的主流框架之一，今天的大数据开发学习分享，我们就主要来讲讲Spark通讯架构。

Spark通信架构概述

Spark2.x版本使用Netty通讯架构作为内部通讯组件。Spark基于Netty新的rpc框架借鉴了Akka中的设计，它是基于Actor模型，如下图所示：

Spark通讯框架中各个组件（Client/Master/Worker）可以认为是一个个独立的实体，各个实体之间通过消息来进行通信。具体各个组件之间的关系如下：

Endpoint（Client/Master/Worker）有一个InBox和N个OutBox（N>=1，N取决于当前Endpoint与多少其他的Endpoint进行通信，一个与其通讯的其他Endpoint对应一个OutBox），Endpoint接收到的消息被写入InBox，发送出去的消息写入OutBox并被发送到其他Endpoint的InBox中。

Spark通讯架构解析

Spark通信架构如下图所示：

1)RpcEndpoint：RPC端点，Spark针对每个节点（Client/Master/Worker）都称之为一个Rpc端点，且都实现RpcEndpoint接口，内部根据不同端点的需求，设计不同的消息和不同的业务处理，如果需要发送（询问）则调用Dispatcher；

2)RpcEnv：RPC上下文环境，每个RPC端点运行时依赖的上下文环境称为RpcEnv；

3)Dispatcher：消息分发器，针对于RPC端点需要发送消息或者从远程RPC接收到的消息，分发至对应的指令收件箱/发件箱。如果指令接收方是自己则存入收件箱，如果指令接收方不是自己，则放入发件箱；

4)Inbox：指令消息收件箱，一个本地RpcEndpoint对应一个收件箱，Dispatcher在每次向Inbox存入消息时，都将对应EndpointData加入内部ReceiverQueue中，另外Dispatcher创建时会启动一个单独线程进行轮询ReceiverQueue，进行收件箱消息消费；

5)RpcEndpointRef：RpcEndpointRef是对远程RpcEndpoint的一个引用。当我们需要向一个具体的RpcEndpoint发送消息时，一般我们需要获取到该RpcEndpoint的引用，然后通过该应用发送消息。

6)OutBox：指令消息发件箱，对于当前RpcEndpoint来说，一个目标RpcEndpoint对应一个发件箱，如果向多个目标RpcEndpoint发送信息，则有多个OutBox。当消息放入Outbox后，紧接着通过TransportClient将消息发送出去。消息放入发件箱以及发送过程是在同一个线程中进行；

7)RpcAddress：表示远程的RpcEndpointRef的地址，Host+Port。

8)TransportClient：Netty通信客户端，一个OutBox对应一个TransportClient，TransportClient不断轮询OutBox，根据OutBox消息的receiver信息，请求对应的远程TransportServer；

9)TransportServer：Netty通信服务端，一个RpcEndpoint对应一个TransportServer，接受远程消息后调用Dispatcher分发消息至对应收发件箱。

关于大数据开发学习，Spark通讯架构，以上就为大家做了简单的介绍了。在Spark内部，通讯问题算是架构层面比较核心的点，要想彻底搞懂的话，还需要结合到源码去深入理解。