《Spark知识点》专题

专题列表页

map:遍历算子，可以遍历RDD中每一个元素，遍历的单位是每条记录 mapPartitions遍历算子，可以改变R...[作者空间]

相同点：两者都会根据key来分组不同点：reduceByKey会根据用户传入的聚合逻辑对数组内的数据进行聚合，...[作者空间]

coalesce（number，bool）第一个参数是将RDD划分成几个partition 第二个算子是确定是否发...[作者空间]

一.提交Application的两种方式分别是client方式和cluster方式1.client方式这种方式，D...[作者空间]

一.粗粒度资源调度：典型：Spark 在Application执行之前，会将所有的资源(Executor)申请完毕...[作者空间]

1.Master(standalone)：资源管理的主节点（进程）管理Worker2.Cluster Manage...[作者空间]

依赖关系可以方便任务调度窄依赖：对RDD执行操作后，父RDD和子RDD对应关系的一对一或多对一（多对一只是一个逻...[作者空间]

一.cache将数据持久化到内存中去注意：1.cache是一个懒执行算子，必须有一个action类算子触发执行。2...[作者空间]

1.当执行“spark -submit --master spark......”这个命令之后，在客户端中启动一个...[作者空间]

Spark中有两类算子1.transformations（转换算子）：延迟执行算子返回值是一个RDD2.Actio...[作者空间]

RDD 弹性式分布数据集可以理解为Spark的一个对象RDD五大特性1.由一系列的Partition组成，如果计...[作者空间]

一.广播变量和累加器的作用累加器（集群规模之间的大变量）：做Spark的全局统计使用广播变量（集群规模间的大常量）...[作者空间]

1.启动Spark集群 2.执行jar包 3.启动了Driver进程(通过执行代码启动了Driver) 然后生成了...[作者空间]