Spark编程

Spark编程

作者: zealscott | 来源:发表于2018-10-20 21:08 被阅读0次

scala基础语法
大数据面试必备知识点总结：Spark，Hadoop，kafka，
spark 学习资源整合
Spark Streaming 编程指南（2.x）
第一讲 spark简介
Spark核心编程：Spark基本工作原理与RDD
Apache Spark 2.2.0 中文文档 - Spark
Apache Spark 2.2.0 中文文档 - Spark
spark 源码分析系列 - wordcount 源码分析
Linux下搭建Spark 的 Python 编程环境

Spark shell

Spark Shell 提供了简单的方式来学习Spark API
Spark Shell可以以实时、交互的方式来分析数据
Spark Shell支持Scala和Python
一个Driver就包括main方法和分布式数据集
Spark Shell本身就是一个Driver，里面已经包含了main方法

Spark RDD

RDD操作

RDD创建

从文件系统中加载数据创建RDD，并指定分区的个数
- 本地文件系统
- HDFS
- 其它
通过并行集合（数组）创建RDD
- 可以将本地的Java对象变为RDD
创建RDD时手动指定分区个数
- 在调用textFile()和parallelize()方法的时候手动指定分区个数即可，语法格式如下：
  
  sc.textFile(path, partitionNum)
- 其中，path参数用于指定要加载的文件的地址，partitionNum参数用于指定分区个数。

RDD Transformation

54004037642

RDD Repartition

通过转换操作得到新RDD 时，直接调用repartition 方法或自定义分区方法
什么使用用到该方法？
- 当遇到某些操作，如join，则可将宽依赖Partition之后变为窄依赖，便于pipeline执行

RDD Action

惰性机制：整个转换过程只是记录了转换的轨迹，并不会发生真正的计算，只有遇到action操作时，才会发生真正的计算，开始从血缘关系源头开始，进行物理的转换操作操

RDD保存

RDD写入到本地文本文件
RDD中的数据保存到HDFS文件中

Spark SQL

Spark SQL增加了DataFrame（即带有Schema信息的RDD），使用户可以在Spark SQL中执行SQL语句，数据既可以来自RDD，也可以是Hive、HDFS、Cassandra等外部数据源，还可以是JSON格式的数据
Spark SQL目前支持Scala、Java、Python三种语言，支持SQL-92规范

Schema

RDD的局限性：RDD是分布式Java对象的集合，但是对象内部结构，即数据Schema不可知
54004061559

DataFrame

无论读取什么数据，都写成DataSet<Row>
- 54004065924

DataSet

相比DataFrame，DataSet明确声明类型
- 54004070261
在源码中，可以将DataFrame理解为DataSet<Row>的别名
若查询语句中有一列不存在，则可以在编译时检查出来

SQL Query

sql(“”)括号中的SQL语句对于该函数来说仅仅是一条字符串
- 54004076814
编译时不会进行任何语法检查

比较

54004082500

相关文章

scala基础语法
Spark核心编程wordcount程序原理深度剖析图 Spark核心编程Spark架构原理
大数据面试必备知识点总结：Spark，Hadoop，kafka，
spark spark core spark sql spark streaming spark编程模式 spar...
spark 学习资源整合
Spark 编程指南 Spark 编程指南 Spark是UC Berkeley AMP lab (加州大学伯克利分...
Spark Streaming 编程指南（2.x）
Spark Streaming 编程指南1.概述Spark Streaming 是 Spark Core API ...
第一讲 spark简介
本章要点：什么是spark Spark生态圈 RDD编程模型 1.1 什么是Spark Apache Spark...
Spark核心编程：Spark基本工作原理与RDD
Spark核心编程：Spark基本工作原理与RDD Spark基本工作原理画图讲解Spark的基本工作原理1、分...
Apache Spark 2.2.0 中文文档 - Spark
Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs)...
Apache Spark 2.2.0 中文文档 - Spark
Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs)...
spark 源码分析系列 - wordcount 源码分析
前言本文主要通过spark wordcount 案例的源码来分析spark中的运行过程。 spark 编程模型 ...
Linux下搭建Spark 的 Python 编程环境
Spark编程环境 Spark 可以独立安装使用，也可以和Hadoop 一起安装使用。在安装 Spark 之前，首...

网友评论

本文标题：Spark编程

本文链接：https://www.haomeiwen.com/subject/qwzmzftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Spark编程|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！