美文网首页大数据spark
spark基础知识学习总结

spark基础知识学习总结

作者: WANGGGGG | 来源:发表于2019-03-12 20:52 被阅读2次

Spark基础知识学习

引言:

    Spark项目包含多个紧密集成的组件,它的核心是一个对由很多计算任务组成的,运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎、由于spark的核心引擎有着速度快和通用的特点,因此spark还支持为各种不同应用场景专门设计的高级组件,这些组件关系密切并且可以相互调用。Spark主要由SparkSQL、sparkStreaming、MLib、GraphX、SparkCore、独立调度器、YARN、Mesos等组件构成sparkcore实现了spark的基本功能,包含了任务调度、内存管理、错误恢复、与存储系统的交互等模块,它还包含了对RDD的API的定义;Sparksql是spark用来操作结构化数据的程序包;sparkStreaming是spark提供的对实时数据进行流式计算的组件;MLlib是机器学习工程程序库;GraphX是操作图的程序库。

一、Spark下载与入门

  (1)学习spark环境搭建

  (2)学习独立应用的编写:初始化sparkContext和构建独立应用

二、RDD编程

   (1)了解RDD是什么

   (2)了解RDD的操作

   (3)了解为什么RDD对于map-reduce存在优势

   (4)RDD的持久化

三、键值对操作

(1)学习创建PairRDD

(2)学习PairRDD几种转化操作:聚合、数据分组、连接、数据排序

(3)数据分区操作

四、数据读取与保存

(1)学习它支持的主要几个文件格式,以及文件压缩以增加文件存储效率

(2)HDFS文件系统

(3)相关数据库操作:java数据库连接、HBase、Elasticsearch

五、Spark编程进阶

(1)累加器和广播变量

(2)学习与外部程序的管道以及数值RDD的操作

六、学习在集群上运行spark

(1)驱动器节点

(2)执行器节点

(3)集群管理器YARN

七、spark调优和测试

(1)配置sparkConf

(2)查找信息:通过web界面、驱动器进程日志和执行器进程日志

(3)关键性能考量:并行度、序列化格式、内存管理、硬件情况

八、学习SparkSQL

(1)初始化SparkSQL

(2)学习基本使用方法

(3)了解了一下HiveQL

九、学习SparkStreaming

(1)两种转化操作:无状态转化和有状态转化

(2)各类数据源:核心数据源、附加数据源、多数据源和集群规模

(3)检查点机制、各类容错机制

(4)影响性能的方面:批次和窗口大小、并行度、垃圾回收和内存使用情况

十、学习MLlib相关知识

(1)学习特征提取、统、分类、回归、聚类、降维、协同过滤与推荐

(2)影响性能的各个方面:RDD的缓存和重复使用率、稀疏程度识别、并行度

原文在我的个人小站中,请多多支持:http://www.canfeng.xyz/blog/article?slug=sCIdM90p

相关文章

  • spark学习笔记1-基础部分

    本文是对Spark基础知识的一个学习总结,包含如下几部分的内容: 概述 运行模式 Spark Shell RDD/...

  • 总结 | 最全的Spark基础知识解答

    总结 | 最全的Spark基础知识解答 2016-09-19中国统计网 1Spark基础知识 1.Spark是什么...

  • spark学习笔记2-Spark SQL

    本文是对Spark SQL基础知识的一个学习总结,包含如下几部分的内容: 概述 SparkSession类 Dat...

  • spark基础知识学习总结

    Spark基础知识学习 引言: Spark项目包含多个紧密集成的组件,它的核心是一个对由很多计算任务组成的,运...

  • spark基础知识总结

    spark基础知识总结 1. 概述 1.1. 简介 Apache Spark是一个围绕速度、易用性和复杂分析构建的...

  • Spark原理简述

    Spark 学习: spark 原理简述与 shuffle 过程介绍 简述总结 Spark 是使用 scala 实...

  • 大数据 -【spark入门】

    1. 简要说明 基于spark 2.3.1版本学习spark基础知识及整体框架。本文首先以python版为主进行描...

  • 搭建scala开发环境

    最近总结了下scala的基础知识,分享下 scala简介 spark的原生语言是Scala,具体的大家可以自行百度...

  • 第三十七天(4月27日)(补)

    1学习时间 学了一个番茄钟的spark 2 学习内容 spark 3 学习总结 很勉强的学习了一会,学习效果一般

  • Spark学习总结

    Spark相关 Spark是用于大数据处理的集群计算框架,没有使用MapReduce作为执行引擎,而是使用了自研的...

网友评论

    本文标题:spark基础知识学习总结

    本文链接:https://www.haomeiwen.com/subject/gxqueftx.html