一、Spark是什么?
是一个基于内存计算的开源的集群计算系统,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
二、Spark有什么用?
它取代现有生态系统中的什么? 实际上Spark不能代替任何传统的Hadoop生态系统。因为Hadoop 2,它只是另一个运行在 YARN容器 的应用程序。因此它非常适合在Hadoop生态系统。它提供可测试 可阅读 可维护等方式编程,解放了我们编写大量MapReduce工作的痛苦,而且 提高性能 。
三、基于CDH安装Spark
进入Cloudera Manager主页

选择需要安装的集群
添加服务

选择spark

继续
选择依赖

继续
选择角色

继续
配置

继续

开始安装
等待
继续

安装完成
完成
网友评论