Spark作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。 在执行Spark的应...[作者空间]
Spark任务从提交到执行完成有很多步骤,整体上可以划分为三个阶段: 应用的提交; 执行环境的准备; 任务的调度和...[作者空间]
一、基础配置 我们公司yarn node节点的可用资源配置为:单台node节点可用资源数:核数33cores、内存...[作者空间]
spark-shuffle Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复...[作者空间]
Spark GraphX概述 GraphX是Spark的一个组件,专门用来表示图以及进行图的并行计算。GraphX...[作者空间]
序列化 在实际开发中会自定义一些对RDD的操作,此时需要注意的是: 初始化工作在Driver端进行的 实际运行程序...[作者空间]
前言 Apache Spark在6月份分布了3.0.0版本,增加了许多性能优化方面的新特性。作为大数据分析的重要引...[作者空间]
MapReduce慢是因为 模型很呆板 ,频繁的Io操作 Spark快的话不仅是因为它是内存迭代计算吧? 具体什么...[作者空间]
写在前面 态度决定高度!让优秀成为一种习惯! 世界上没有什么事儿是加一次班解决不了的,如果有,就加两次!(- - ...[作者空间]