美文网首页
1-Spark概述

1-Spark概述

作者: Achaichai | 来源:发表于2018-07-06 16:20 被阅读0次

1 大数据技术栈

image.png

2 spark是什么

快如闪电般的分布式计算框架:Lightning-fast cluster

3 MapReduce框架局限性

image.png

4 Hadoop生态圈中的各种框架

image.png

5 Spark的优势

image.png
image.png

6 SPARK 2新特性

image.png

7 Windows开发环境

image.png

8 下载anacoda(略)

9 下载安装hadoop2.7

hadoop-2.7.6下载地址:https://archive.apache.org/dist/hadoop/common/hadoop-2.7.6/
进入下载地址后,选择红框里的内容,则会开始自动下载了。

image.png

10 下载安装jdk1.8

jdk1.8下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
选择Accept License Agreement,然后下载和自己电脑配置相同的版本,我的是windows64位的,如下图:

image.png

11 下载安装spark

spark-2.3.1-bin-hadoop2.7.tgz下载地址:http://spark.apache.org/downloads.html
选择版本,点击下载

image.png

12 安装py4j

进入cmd命令框,输入:pip install py4j,即开始下载

13 安装pyspark的扩展包

将D:\spark-2.3.1-bin-hadoop2.7\python(spark\python目录)粘贴到anacoda目录下D:\anaconda3\Lib\site-packages,新建pyspark.pth的文本里

14 配置环境变量

将hadoop2.7、spark、jdk这三个的安装目录添加到环境变量中,分别为
HADOOP_HOME:hadoop安装路径


image.png

SPARK_HOME:spark安装路径


image.png
JAVA_HOME:jdk安装路径
image.png
在Path路径中也要加上刚才添加的三个安装路径
image.png

15 启动pyspark

在cmd命令框中输入:pyspark,进入pyspark编辑界面


image.png

16 测试wordcount

1、在D盘新建一个测试文件:app.log(随便输入几个word,用空格分割)
2、运行下面命令

sc = spark.sparkContext
doc = sc.textFile('file:///d:/app.log')
words = doc.flatMap(lambda x:x.split(" ")).map(lambda x:(x,1)).reduceByKey(lambda x,y:x+y).collect()”

相关文章

  • 1-Spark概述

    1 大数据技术栈 2 spark是什么 快如闪电般的分布式计算框架:Lightning-fast cluster ...

  • Java-Spark系列1-spark概述

    一.大数据技术栈 如下图,当前的一个大数据技术栈: 如上所示: 数据采集,一般通过Sqoop或Flume将关系型数...

  • pySpark学习1-Spark简介

    Apache Spark是一个功能强大的开源处理引擎,最初由Matei Zaharia开发,是加州大学伯克利分校博...

  • 概述

    Web 基础 HTTP(HyperText Transfer Protocol,超文本传输协议)。 WWW(Wor...

  • 概述

    计算机网络由若干结点和链路组成。网络间可以通过路由器互连起来,构成的网络称为互连网(internet)。inter...

  • 概述

    资源 主页:http://opencv.org文档:http://docs.opencv.org/master/问...

  • 概述

    1、分类 创建型:Singleton,Builder,Prototype,Abstract Factory,Fac...

  • 概述

    2018年7月26日,是我开始记录我和我男朋友的爱情故事的第一天,也是我和他在一起的第99天。 其实我们刚在一...

  • 概述

    电路交换、分组交换 电路交换由于电话通信系统,分组交换用于网络数据传输。 电路交换两个用户独占一条物理链路;分组交...

  • 概述

    课程大纲: 1、图像的基本构成2、像素读写3、图像像素值统计信息4、像素值数学运算5、图像RGB彩色空间6、色彩空...

网友评论

      本文标题:1-Spark概述

      本文链接:https://www.haomeiwen.com/subject/lvjvuftx.html