大数据基础之Spark

作者: bd8941f5f5cc | 来源:发表于2018-11-15 11:03 被阅读2次

大数据学习方向，你都了解了吗？
大数据学习方向
大数据学习方向，入门到精通需要哪些基本知识
大数据基础系列之提交spark应用及依赖管理
Spark学习之Spark Streaming（一）
spark基础环境搭建
spark 基础知识整理（三）- spark SQL专题
大数据基础之Spark
目录
Spark SQL（Spark shell）

背景

Spark 是 2010 年由 UC Berkeley AMPLab 开源的一款 基于内存的分布式计算框架，2013 年被Apache 基金会接管，是当前大数据领域最为活跃的开源项目之一（http://spark.apache.org/）。

Spark 在 MapReduce 计算框架的基础上，支持计算对象数据可以直接缓存到内存中，大大提高了整体计算效率。特别适合于数据挖掘与机器学习等需要反复迭代计算的场景。

二

特性

高效：Spark提供 Cache 机制，支持需要反复迭代的计算或者多次数据共享，基于Spark 的内存计算比 Hadoop MapReduce 快100倍。

易用：Spark提供 20 多种数据集操作类型，并支持使用 Python 和 Scala 脚本开发应用。

先进架构：Spark采用 Scala 语言编写，基于 DAG 图的执行引擎，减少多次计算之间中间结果写到 HDFS 的开销。

三

应用场景

Spark之上有四种应用工具库。

Spark Streaming: 用于流式计算。

MLlib：用于机器学习（聚类、协同过滤等）。

Spark SQL：用于处理结构化数据。

GraphX：用于图和图并行计算的API。

目前主要应用在广告精准投放系统、日志报表即时查询、以及推荐系统等业务场景。这些应用场景的共同特点是计算量大且效率要求高。

四

部署模式

Spark有三种部署模式。

Standalone：使用Spark自带的集群管理器。

Spark on Mesos：使用 Mesos 管理资源。

Spark on YARN：使用 YARN 管理资源。

五

任务流程

Spark重要组件包括 Driver Program（Driver）和Executor。以 Standalone（Driver 运行在 Client）模式为例介绍任务执行流程。

1. 客户端运行用户程序，启动 Driver。

2. Driver将作业转换为DAG图(类似数据处理的流程图)，根据策略将DAG图划分为多个Stage，最终生成一系列最小可执行的Task。

3. Driver根据Task的需求，向Master申请运行Task所需的资源。

4. Master为Task调度分配满足需求的Worker节点，在Worker节点启动Exeuctor。

5. Exeuctor启动后向Driver注册。

6. Driver将Task调度到Exeuctor执行。

7. Executor执行结果写入文件或返回Driver。

很多初学者，对大数据的概念都是模糊不清的，大数据是什么，能做什么，学的时候，该按照什么线路去学习，学完往哪方面发展，想深入了解，想学习的同学欢迎加入大数据学习qq群：458345782，有大量干货（零基础以及进阶的经典实战）分享给大家，并且有清华大学毕业的资深大数据讲师给大家免费授课，给大家分享目前国内最完整的大数据高端实战实用学习流程体系。

网友评论

本文标题：大数据基础之Spark

本文链接：https://www.haomeiwen.com/subject/hmnefqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

大数据基础之Spark

相关文章

大数据学习方向，你都了解了吗？

大数据学习方向

大数据学习方向，入门到精通需要哪些基本知识

大数据基础系列之提交spark应用及依赖管理

Spark学习之Spark Streaming（一）

spark基础环境搭建

spark 基础知识整理（三）- spark SQL专题