Spark简述

作者: 上山走18398 | 来源:发表于2019-07-09 07:21 被阅读0次

Spark原理简述
Spark编程模型
Spark简述
Spark RPC 框架源码分析（二）运行时序
Spark RPC 简述
Spark学习笔记
Spark 的“血液” --Spark RPC（一）简述
Spark大数据平台
Spark Streaming + Kakfa 编程指北
使用Spark分析拉勾网招聘信息(三): BMR 入门

Spark 简介

Spark是什么
一个快速且通用的集群计算平台

Spark特点：
 1. Spark扩充了流行的Mapreduce计算模型
 
 2. Spark是基于内存的计算（一些中间数据存储在内存中，加快读写）
 
 
Spark 是通用的
    Spark的设计容纳了其他分布式系统拥有的功能
    
    批处理，迭代式计算，交互查询和流处理等
    
Spark是高度开放的

    Spark提供了Python Java Scala Sql的API和丰富的内置库
    Spark和其他的大数据工具整合的很好，包括Hadoop、kafaka等

Spark生态圈

最初是基于Hadoop MapReduce的
发现MapReduce在迭代式计算和交互式上低效，引入了内存存储（重大的区别）

Spark的组件：
Spark SQL structured data：
是Spark处理结构化数据的库，就像Hive SQL，Mysql一样--报表统计
Spark Streaming real-time：
是实时数据流处理组件，类似Storm
Spark Streaming提供了API来操作实时流数据
应用场景，企业中用来从Kafka接收数据做实时统计




Mlib machine learning

一个包含通用机器学习功能的包， Machine learning lib
包含分类，聚类，回归等，还包括模型评估，和数据导入

MLib提供的上面这些方法，都支持集群上的横向扩展





Graphx graph processing

是处理图的库（例如，社交网络），并进行图的并行计算
继承了RDD API
它提供了各种图的操作和常用的图算法，例如PangeRank算法
应用场景，图计算

---------------------
Spark Core
包含了Spark的基本功能，包含任务调度，内存管理，容错机制
内部定义了RDDs（弹性分布式数据集）
提供了很多APPIs来创建和操作这些RDDs
应用场景，为其他组件提供底层服务

---------------------
Cluster Managers：
    
    就是集群管理，Spark自带一个集群管理是单独调度器
    常见集群管理包括Hadoop YARN， Apache Mesos

紧密集成的优点
Spark底层优化了，基于Spark底层的组件，也得到了相应的优化

紧密集成，节省了各个组件组合使用时的部署，测试等时间

向Spark增加新的组件，其它组件时，可立刻享用新组件的功能

Spark 和 Hadoop比较

Hadoop应用场景：
离线处理

对时效性要求不高：中间数据会落在硬盘上（几分钟到几小时不等）

Spark应用场景：
时效性要求高的场景（几秒钟到几分钟不等）

机器学习等领域
基于内存

比较：
这是生态系统，每个组件都有其作用，各司其职即可

Spark不具有HDFS的存储能力，要借助HDFS等持久化数据。
大数据将会孕育出更多的新技术

Spark安装
数据处理？？？？

Spark运行环境：
Spark是Scala写的，运行在JVM上，所有运行环境是Java7+
python 2.6+ 3.7+


Spark的Shell：
Spark的Shell使你能够处理分布在集群上的数据

Spark把数据加载到节点的内存中，因此分布式处理可在秒级完成

快速迭代式计算，实时查询，分析一般能够在shells中完成

Spark提供了Python shells 和 Scala shells

python shell ：
 bin/pyspark
 bin/spark-shell
 
 spark是用Scala写的？？？
 网络问题 版本问题

Rdds

RDDs介绍

Driver programe
 包含程序main()方法，RDDs定义和操作
 它管理很多节点，我们称作executors
 
SparkContext：
 driver programs 通过SparkContext对象访问Spark
 SparkContext对象代表和一个集群的连接
 在shell中SparkContext自动创建好了，就是sc变量（直接调用即可）
 scala> val lines=sc.textFile（../xx）
-----------------------------

RDDs：
1. Resilient distributed datasets（弹性分布式数据集，简写RDDs）
2. 这些RDDs，并行的分布在整个集群中
eg。1
scala> val lines=sc.textFile（../xx）
假设这个文件有500g ，对其切分分布在5个节点上
通过lines就可以知道文件存放在哪，并操作（lines就是RDDs）
3. RDDs是Spark分发数据和计算的基础抽象类

    1.1 一个RDD是一个不可改变的分布式集合对象（相当于文件被占用，不可修改）
    1.2 Spark中，所有的计算都是通过RDDs的创建，转换，操作完成的。
    1.3 一个RDD内部由许多partitions（分片）组成
    
分片：
每个分片包括一部分数据，partitions可在集群不同节点上计算

分片是Spark并行处理的单元，Spark顺序的，并行的处理分片

RDDs的创建方法：
一、 把一个存在的集合传给SparkContext的parallelize()方法，测试用
val rdd = sc.parallelize（Array（1，2，2，4），4）
第一个参数：待并行化处理的集合，第2个参数：分区个数

二、 加载外部数据集

val rddText = sc.textFile（“xxx.txt”）


Scala基础语法：
val  var创建变量
val：不可修改
var：可变

Scala的匿名函数和类型推断

RDD基本操作之Transformation

Transformation介绍：

从之前RDD构建一个新的RDD，像map（）和filter（）

逐元素Transformation
 map（）
 
 map接收函数，把函数应用到RDD的每一个元素，返回新RDD
 
 val lines = lines.map（word=>（word，1））
 
 filter() 
 
 filter（）接收函数，返回只包含满足filter（）函数的元素的新rdd
 
 
 
 val lines =lines.filter（word=>word.contains(‘hello’)）
 
 flatMap()
 
 
 val inputs = sc.TextFile("xxx.txt")
 
 val lines = inputs.flatMap(line=>line.split(" "))
 
 
集合运算
并集 交集等

val rdd1=sc.parallelize（Array（"coffe","coffe","panda","monkey","tea"））

val rdd2=sc.parallelize（Array（"coffe","coffe","panda","monkey","cat"））

val rdd_distinct=rdd1.distinct(rdd2)

val rdd_union =rdd1.union()

val rdd_inter=rdd.intersection(rdd2)

val rdd_sub=rdd1.subtract(rdd2)

RDD基本操作action，对返回结果对操作？？？
Action介绍
在RDD上计算出来一个结果
把结果返回给driver program或保存在文件系统，count（），save

reduce() //累加，计数，和其他类型的聚集操作
rdd.reduce((x,y)=>x+y)

Collect() 
//遍历整个RDD，向driver program返回RDD内容
//需要单机内存能够容纳下（因为数据要拷贝给driver，测试使用）
大数据的时候，使用saveAsTextFile() action等

take（n）
返回RDD的n个元素（同时尝试访问最少的partitions）
返回结果是无序的测试使用

top（）
//排序

foreach（）
//计算RDD中的每个元素，但不返回本地，不保存


RDDs的特性
RDDs的血统关系图：
 Spark维护着RDDs之间的依赖关系和创建关系，叫做血统关系图
 
 Spark使用血统关系图来计算每个RDD的需求和恢复丢失的数据
 
延迟计算（lazy evaluation）

Spark对RDDs的计算是，他们第一次使用action操作的时候
这种方式在处理大数据的时候特别有用，可以减少数据的传输
Spark内部记录metadata表明transformation操作已被响应
加载数据也是延迟计算，数据只有在必要的时候，才会被加载进去

RDD.persist()
 默认每次在RDDs上进行action操作时，Spark都重新计算RDDs
 如果想重复利用一个RDD，可以使用RDD.persist（）参数：内存，硬盘
 unpersist 从缓存中移除

KeyValue对RDDs

创建KeyValue对Rdds：
使用Map函数 ，返回keyValue

eg.1 
使用map（）函数，返回key/vlaule
例如，包含数行数据对RDD，把每行数据数据的第一个单词作为keys


val rdd2=rdd.map（line=>(line.split(" ")(0),line)）

KeyValue对RDDs的Transformations（example：{（1，2），（3，4），（5，6）}）

reduceBykey()
groupByKey()
.............


combineByKey()：
（createCombiner,mergeValue,MergeCombiners,partitioner）
最常用基于key的聚合函数，返回类型可以与输入类型不一样
许多基于key的聚合函数都用到了它，像groupByKey（）

combineByKey():
遍历partition中的元素，元素的key，要么之前见过，要么不是
如果是新元素，使用我们提供的createCombiner()函数
如果是这个partition中已经存在key，就会使用mergeValue()函数
合计每个partition的结果的时候，使用mergeCombiner()函数

Spark原理简述
Spark 学习: spark 原理简述与 shuffle 过程介绍简述总结 Spark 是使用 scala 实...
Spark编程模型
Spark简述下图是Spark和MapReduce进行逻辑回归机器学习的性能比较，Spark比MapReduce...
Spark简述
Spark 简介 Spark生态圈 Spark 和 Hadoop比较 Spark安装数据处理？？？？ Rdds R...
Spark RPC 框架源码分析（二）运行时序
前情提要： Spark RPC 框架源码分析（一）简述一. Spark RPC 概述概述上一篇我们已经说明了 ...
Spark RPC 简述
Spark 中的消息通信主要涉及 RpcEnv、RpcEndpoint 及 RpcEndpointRef 几个类，...
Spark学习笔记
1.Spark简述 Spark通过内存计算能力，急剧的提高大数据处理速度。解决了Hadoop只适合于离线的高吞吐量...
Spark 的“血液” --Spark RPC（一）简述
一. Spark rpc概述首先说明RPC，引用百度百科： RPC（Remote Procedure Call）...
Spark大数据平台
1. Spark简述 Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMP...
Spark Streaming + Kakfa 编程指北
本文简述如何结合 Spark Streaming 和 Kakfa 来做实时计算。截止目前（2016-03-27）有...
使用Spark分析拉勾网招聘信息(三): BMR 入门
简述本文,意在以最小的篇幅,来帮助对大数据和Spark感兴趣的小伙伴,能尽快搭建一个可用的Spark开发环境.力...