1.Spark的概述

作者: 山间浓雾有路灯 | 来源:发表于2019-05-17 15:14 被阅读1次

1.Spark的概述
推荐系统之SparkML实现协同过滤ALS
1.Spark入门之Spark概述
慕课网Spark SQL日志分析 - 3.Spark SQL概述
Spark广播
1.spark简介
1.Spark前言
解析RDD在Spark中的地位
Spark Streaming
Spark从入门到精通52:Spark2.0特性介绍

Spark，是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等。

先了解一下大数据的整体架构

大数据体系概览

Spark包含了大数据领域常见的各种计算框架：比如Spark Core用于离线计算，Spark SQL用于交互式查询，Spark Streaming用于实时流式计算，Spark MLlib用于机器学习，Spark GraphX用于图计算。

Spark整体架构

Spark，是一种"One Stack to rule them all"的大数据计算框架，期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务。Apache官方，对Spark的定义就是：通用的大数据快速处理引擎。Spark除了一站式的特点之外，另外一个最重要的特点，就是基于内存进行计算，从而让它的速度可以达到MapReduce、Hive的数倍甚至数十倍！

Spark解决的问题：

1.最大化利用内存cache,多个线程共享资源。中间结果放内存,加速迭代,内存计算下比MapReduce快。把结果集放内存,加速后续查询和处理,解决运行慢的问题

2.完整作业描述：将用户的整个作业串起来.不像mr那样,需要实现多个map和reduce脚本,解决mr缺乏作业流描述问题

接下来是Spark的各组件与Hadoop相关的进行比较

Spark VS MapReduce

Spark和MapReduce的简单对比

Spark也有其劣势。由于Spark基于内存进行计算，虽然开发容易，但是真正面对大数据的时候（比如一次操作针对10亿以上级别），在没有进行调优的情况下，可能会出现各种各样的问题，比如OOM内存溢出等等。导致Spark程序可能都无法完全运行起来，就报错挂掉了，而MapReduce即使是运行缓慢，但是至少可以慢慢运行完。

SparkSql VS Hive

Spark和Hive的简单对比

Spark SQL的一个优点，相较于Hive查询引擎来说，就是速度快，同样的SQL语句，可能使用Hive的查询引擎，由于其底层基于MapReduce，必须经过shuffle过程走磁盘，因此速度是非常缓慢的。很多复杂的SQL语句，在hive中执行都需要一个小时以上的时间。而Spark SQL由于其底层基于Spark自身的基于内存的特点，因此速度达到了Hive查询引擎的数倍以上。

而Spark SQL相较于Hive的另外一个优点，就是支持大量不同的数据源，包括hive、json、parquet、jdbc等等。此外，Spark SQL由于身处Spark技术堆栈内，也是基于RDD来工作，因此可以与Spark的其他组件无缝整合使用，配合起来实现许多复杂的功能。比如Spark SQL支持可以直接针对hdfs文件执行sql语句！

Spark Streaming VS Storm

Spark Streaming和Storm的简单对比

Spark Streaming由于也身处于Spark生态圈内，因此Spark Streaming可以与Spark Core、Spark SQL，甚至是Spark MLlib、Spark GraphX进行无缝整合。流式处理完的数据，可以立即进行各种map、reduce转换操作，可以立即使用sql进行查询，甚至可以立即使用machine learning或者图计算算法进行处理。这种一站式的大数据处理功能和优势，是Storm无法匹敌的

通常在对实时性要求特别高，而且实时数据量不稳定，比如在白天有高峰期的情况下，可以选择使用Storm。但是如果是对实时性要求一般，允许1秒的准实时处理，而且不要求动态调整并行度的话，选择Spark Streaming是更好的选择