美文网首页
第二章 Spark下载与入门

第二章 Spark下载与入门

作者: 司马山哥 | 来源:发表于2018-12-19 10:15 被阅读0次

2.1 下载与安装

单机Spark的安装,可以不用Hadoop,所以只需要安装JDK、scala (均可以用sudo apt-get install *)和
spark(http://spark.apache.org/downloads.html
单机Spark是指在本地模式下运行,也就是非分布式模型,这样我们只需要用到一台机器。

2.2 Spark中Python和Scala的shell

Spark shell和其他的shell不同,在其他的shell工具中你只能使用单机的硬盘和内存来操作数据,而Spark shell可用来与分布式存储在许多机器的内存或者硬盘上的数据进行交互,并且处理过程的分发由Spark自动控制完成。

先进入spark安装文件夹下
1)Python版本的shell打开方式 bin/pyspark
2)Scala版本的shell打开方式 bin/spark-shell

2.3 Spark 核心概念简介

每个Spark应用都由一个驱动程序来发起集群上各种并行操作。驱动器程序包含应用的main函数,并且定义了集群上的分布式数据集,还对这些分布式数据集应用了相关操作。

驱动器程序通过一个SparkContext对象来访问Spark,是一个叫做sc的变量,有了sc变量,就可以用它来创建RDD。


Spark分布式执行涉及的组件.png

向Spark传递函数
当你在这些语言中使用Spark时,你也可以单独定义一个函数,然后把函数名传给Spark。

def haspython(line):  
      return "python" in line
pytonlines = lines.fliter(haspython)

2.4 独立应用

spark-submit 脚本会帮助我们引入Python程序的spark依赖,这个脚本为spark的PythonAPI配置好了运行环境。

bin/spark-submit my_script.py

2.4.1 初始化SparkContext

一旦完成应用与Spark的连接,接下来就需要在你的程序中导入Spark包并且创建SparkContext。可以通过先创建一个SparkConf对象来配置你的应用,然后基于这个SparkConf创建一个SparkContext对象。

 from pyspark import SparkConf,SparkContext
 conf = SparkConf().setMaster("local").setAppName("My App")
 sc = SparkContext(conf =conf)

1.集群url,告诉Spark如何连接到集群,这里使用的local,这使得spark运行在单机单线程上而无需连接到集群
2.应用名,当连接到一个集群上,这个值可以帮助你在急群管理器的用户界面中找到你的应用。

——关闭Spark可以调用stop()方法。

2.4.2 构建独立应用

一个Python版本的单词统计例子

from pyspark import SparkContext
sc = SparkContext(master='local[1]', appName='wordcount')
# 读取文件
text = sc.textFile('/****/***/spark-2.4.0-bin-hadoop2.7/README.md')
# 切分单词
counts = text.flatMap(lambda line: line.split()).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a+b)
print(counts.collect())   

【注释】py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://localhost:9000/user/spark/README.md
这是因为在使用相对路径时,系统默认是从hdfs://localhost:9000/目录下读取README.md文件的,但是README.md文件并不在这一目录下,所以sc.textFile()必须使用绝对路径,

相关文章

  • 第二章 Spark下载与入门

    2.1 下载与安装 单机Spark的安装,可以不用Hadoop,所以只需要安装JDK、scala (均可以用sud...

  • 2020-10-21

    spark 入门 课程目标: 了解spark概念 知道spark的特点(与hadoop对比) 独立实现spark ...

  • Spark快速大数据分析(1)

    推荐序译者序序前言第1章 Spark数据分析导论第2章 Spark下载与入门第3章 RDD基础第4章 键值对操作第...

  • spark

    *Spark Spark 函数Spark (Python版) 零基础学习笔记(一)—— 快速入门 1.map与fl...

  • Spark入门——Python

    一.安装spark 安装可参照厦门大学数据实验室出的安装教程--Spark快速入门指南 - Spark安装与基础使...

  • windows下安装spark

    1、安装jdk 2、安装scala 3、下载spark spark下载地址 3.1安装spark 将下载的文件解压...

  • Windows部署Spark

    一、Spark等软件下载1.Spark下载地址:http://spark.apache.org/downloads...

  • 关于python学习文档

    1.《Spark 官方文档》Spark快速入门 英文原文:http://spark.apache.org/docs...

  • Spark RDD Api使用指南

    ​ 在Spark快速入门-RDD文章中学了spark的RDD。spark包含转换和行动操作。在进行spark程...

  • Spark 运行模式----Local模式

    本章介绍在各种运行模式如何运行Spark应用. 首先需要下载Spark 下载Spark 1.官网地址 http:/...

网友评论

      本文标题:第二章 Spark下载与入门

      本文链接:https://www.haomeiwen.com/subject/xkslkqtx.html