map:遍历算子,可以遍历RDD中每一个元素,遍历的单位是每条记录 mapPartitions遍历算子,可以改变R...[作者空间]
相同点: 两者都会根据key来分组 不同点:reduceByKey会根据用户传入的聚合逻辑对数组内的数据进行聚合,...[作者空间]
coalesce(number,bool)第一个参数是将RDD划分成几个partition 第二个算子是确定是否发...[作者空间]
一.提交Application的两种方式分别是client方式和cluster方式1.client方式这种方式,D...[作者空间]
一.粗粒度资源调度:典型:Spark 在Application执行之前,会将所有的资源(Executor)申请完毕...[作者空间]
1.Master(standalone):资源管理的主节点(进程)管理Worker2.Cluster Manage...[作者空间]
依赖关系可以方便任务调度 窄依赖:对RDD执行操作后,父RDD和子RDD对应关系的一对一或多对一(多对一只是一个逻...[作者空间]
一.cache将数据持久化到内存中去注意:1.cache是一个懒执行算子,必须有一个action类算子触发执行。2...[作者空间]
1.当执行“spark -submit --master spark......”这个命令之后,在客户端中启动一个...[作者空间]
Spark中有两类算子1.transformations(转换算子):延迟执行算子返回值是一个RDD2.Actio...[作者空间]
RDD 弹性式分布数据集 可以理解为Spark的一个对象RDD五大特性1.由一系列的Partition组成,如果计...[作者空间]
一.广播变量和累加器的作用累加器(集群规模之间的大变量):做Spark的全局统计使用广播变量(集群规模间的大常量)...[作者空间]
1.启动Spark集群 2.执行jar包 3.启动了Driver进程(通过执行代码启动了Driver) 然后生成了...[作者空间]