大数据学习之SPARK的重要性

作者: 彧11 | 来源:发表于2018-10-22 17:54 被阅读0次

大数据学习之SPARK的重要性
pyspark与机器学习
Spark基础与数仓应用调优
5.spark core之RDD编程
数据挖掘之Spark学习
大数据学习方向，你都了解了吗？
大数据学习方向
大数据学习方向，入门到精通需要哪些基本知识
Spark 学习资料
联邦学习-安全树模型 SecureBoost之Desicion

为了辅助大家更好去了解大数据技术，本文集中讨论Spark的一系列技术问题，大家在学习过程中如果遇到困难，可以留言互动，我都将「知无不言，言无不尽」！本文摘自科多大数据武老师的笔记，感谢整理

//话题1：MapReduce的局限性有哪些？

回复：

① MapReduce框架局限性

它仅支持Map和Reduce两种操作，而且处理效率低效，具体有这四点：

a. Map中间结果写磁盘， Reduce写HDFS，多个MR之间通过HDFS交换数据；

b. 任务调度和启动开销大；

c. 无法充分利用内存；

d. Map端和Reduce端均需要排序；

而且它不适合迭代计算（如机器学习、图计算等），交互式处理（数据挖掘）和流式处理（点击日志分析）。

② MapReduce编程不够灵活，最好尝试scala函数式编程。

//话题2：现有的各种计算框架有哪些？

回复：

①批处理有MapReduce、Hive、Pig

②流式计算有Storm

③交互式计算有Impala、Presto

而Spark是一种灵活的框架，可同时进行批处理、流式计算、交互式计算！

//话题3：Spark到底有哪些特点？

回复：

高效（比MapReduce快10~100倍）性

①内存计算引擎，提供Cache机制来支持需要反复迭代计算或者多次数据共享，减少数据读取的IO开销

② DAG引擎，减少多次计算之间中间结果写到HDFS的开销

③使用多线程池模型来减少task启动开稍， shuffle过程中避免

④不必要的sort操作以及减少磁盘IO操作

易用性

①提供了丰富的API，支持Java， Scala， Python和R四种语言

②代码量比MapReduce少2~5倍

能与Hadoop集成

①读写HDFS/Hbase

②与YARN集成

//话题4：Spark中的RDD如何理解？

回复：

RDD(Resilient Distributed Datasets)，弹性分布式数据集，有以下几个特点：

①分布在集群中的只读对象集合（由多个Partition构成）

②可以存储在磁盘或内存中（多种存储级别）

③通过并行“转换”操作构造

④失效后自动重构

//话题5：Spark中的RDD有哪些操作？

回复：

Transformation，可通过程序集合或者Hadoop数据集构造一个新的RDD，通过已有的RDD产生新的RDD，举例： map，filter，groupBy，reduceBy；

Action，通过RDD计算得到一个或者一组值，举例：count，reduce，saveAsTextFile；

而它们的接口定义方式不同，Transformation： RDD[X] -> RDD[Y]；Action: RDD[X] -> Z (Z不是一个RDD, 可能是基本类型，数组等)

同时，对于惰性执行（ Lazy Execution）也有区别，Transformation只会记录RDD转化关系，并不会触发计算；Action是触发程序执行（分布式）的算子；

//话题6：Spark提交任务执行的命令？

回复：

spark-submit\

--masteryarn-cluster\

--class com.xxx.examples.WordCount\

--driver-memory 2g\

--driver-cores 1\

--executor-memory 3g\

--executor-cores 3\

--num-executors 3

//话题7：Spark的运行模式？

回复：

① local（本地模式），单机运行，通常用于测试。

② standalone（独立模式），独立运行在一个集群中。

③ YARN/mesos，运行在资源管理系统上，比如YARN或mesos。其中Spark On YARN存在两种模式yarn-client和yarn-cluster。

//话题8：Spark的本地模式怎么理解？

回复：

将Spark应用以多线程方式，直接运行在本地，便于调试。本地模式分类如下：

① local：只启动一个executor

② local[K]：启动K个executor

③ local[*]：启动跟cpu数目相同的executor

//话题9：Spark On Yarn模式的运行机制？

回复：

追踪一个应用程序运行过程

bin/spark-submit --master yarn-cluster--class …

core/src/main/scala/org/apache/spark/deploy/SparkSubmit.scala

yarn/src/main/scala/org/apache/spark/deploy/yarn/Client.scala

yarn/src/main/scala/org/apache/spark/deploy/yarn/ApplicationMaster.scala

core/src/main/scala/org/apache/spark/SparkContext.scala

core/src/main/scala/org/apache/spark/executor/Executor.scala

网友评论

本文标题：大数据学习之SPARK的重要性

本文链接：https://www.haomeiwen.com/subject/ogngzftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

大数据学习之SPARK的重要性

相关文章