063 spark概要

063 spark概要

作者: 快乐公兽 | 来源:发表于2020-06-20 13:46 被阅读0次

063 spark概要
4、Spark概要
spark应用开发-开发工具篇
Apache Spark 2.2.0 中文文档 - Spark
Apache Spark 2.2.0 中文文档 - Spark
spark网络通信-RPC的实现
3.1 Spark Lisener 概要
Hadoop、Spark、Flink概要
Spark内核流程概要
Spark Streaming之WordCount

基本概念

application
job
stage

每一个spark作业都只有一个application，作业中每一个action操作对应一个job，job中的stage是按照shuffle来区分
每个Worker节点中的core会启动一个ExecutorBackend进程，进程中一个Executor会持有一个线程池，线程来执行task任务

spark中每个stage中会有多个数据分片，每个数据分片扔给task来执行计算
stage将每一个partition数据fetch过来

MapReduce和Spark中shuffle的区别

Hadoop和spark性能区别主要在shuffle上，spark计算速度更快、更吃内存，但是超大规模数据量Hadoop基于sort-based-shuffle机制的优势就体现出来了。

Hadoop中shuffle

map阶段，将每个split数据读入内存，partitioner之后为每个partition内排好序
内存满了就溢写到磁盘，最后每个map将溢写到磁盘的文件归并（partitioner内有序）
reduce阶段，每个reduce将所有map中自身partition拉到本地做归并
map和reduce中间可以增加combiner操作

Hadoop.png

spark中shuffle

shuffle write阶段，同一个CPU核内的bucket合并
shuffle read阶段，将所有map中相同bucket拉取并合并
整个过程都是无序，相同key的合并依赖于内存hashMap结构合并

spark.png

区别

Hadoop中shuffle过程中数据有序，combiner和reduce的时候归并即可，这样能支持更大量数据。
spark中shuffle过程数据无序，reduce阶段借助hashMap内存结构实现合并，吃内存
- 内存不够，也会spill到硬盘做排序

分片概念

Hadoop和spark都是分布式计算框架，那么计算数据的单位是什么呢？

计算是按照分片为单位的。MapReduce中一个分片对应一个map进程
input中文件比较大，会分成多片，默认是128M；如果文件小于128M，则一个文件就一个分片；一个文件单独起一个线程来执行，如果输入数据中小文件太多会影响性能
小文件多，Hadoop中通过combineFile操作解决

相关参数

spark执行一些重要参数
executor-num：参与计算的节点数
executor-core：每个节点的CPU核数
executor-mem：每个计算节点的内存

spark.default.parallelism：并行度参数，shuffle过程才会起作用

出现OOM现象，可以考虑将executor-mem调大、executor-core调小，并行度设置为executor-core总数的2～3倍

相关文章

063 spark概要
基本概念 applicationjobstage 每一个spark作业都只有一个application，作业中每一...
4、Spark概要
一、基本特性 1、与MapReduce的不同不同于MapReduce的是Job中间输出和结果可以“保存在内存”中...
spark应用开发-开发工具篇
概要目前Spark官方提供Java,Scala,Python三种语言的API。因为Spark是用Scala开发，...
Apache Spark 2.2.0 中文文档 - Spark
Spark RDD（Resilient Distributed Datasets）论文概要 1: 介绍 2: R...
Apache Spark 2.2.0 中文文档 - Spark
Spark RDD（Resilient Distributed Datasets）论文概要 1: 介绍 2: R...
spark网络通信-RPC的实现
本文基于spark源码2.11 1. 概要 spark中网络通信无处不在，例如 driver和master的通信，...
3.1 Spark Lisener 概要
1. 简要说明由于Driver中的SparkContext类似项目经理, 在启动时, 他先启动了一个记录工作状态...
Hadoop、Spark、Flink概要
Hadoop，Spark、Flink是目前重要的三大分布式计算系统 · Hadoop用于离线复杂大数据处理·Spa...
Spark内核流程概要
本篇文章主要介绍Spark的内核架构，详细介绍从Saprk程序编写完成使用Spark submit(shell)的...
Spark Streaming之WordCount
1. 概要 Spark Streaming是Spark的流处理框架，具有可扩展性、高吞吐率、失败恢复机制。Spar...

网友评论

本文标题：063 spark概要

本文链接：https://www.haomeiwen.com/subject/ydgwxktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|063 spark概要|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！