spark原理以及源码解析
RDD的依赖关系分为两种: 窄依赖(A>B) 定义:父RDD的一个分区最多被子RDD的一个分区依赖。有两中情况: ...[作者空间]
1.自动进行内存和磁盘存储的切换 spark会优先将数据存储在内存中,如果内存放不下,才把数据写入磁盘,不但能计算...[作者空间]
RDD的存储机制: 其数据分布存储在多台机器上,都是以block的形式存储在服务器上。每个Executor都会启动...[作者空间]