美文网首页IT技术进阶
Spark生态圈小贴士

Spark生态圈小贴士

作者: 采风JS | 来源:发表于2018-01-17 23:18 被阅读55次

学习Spark的基本组件,主要由SparkSql、SparkStreaming等构成,简单理解其基本原理,构建Spark生态的全貌。

一、Spark Sql常识

Spark Sql提供了对于结构化和半结构化数据的快速操作,主要具备以下三种功能,

(1)从多种结构化数据源(json、parquet和hive)中读取数据

(2)支持Spark应用程序内部调用和外部工具通过标准连接器连接Spark Sql进行查询

(3)Spark Sql中sql与Java/Python/Scala代码高度整合

二、Spark Streaming常识

(1)Spark Streaming中使用离散化流作抽象表示并称为DStream,其由RDD组成的队列

(2)Spark Streaming支持两种操作,转化操作和输出操作,转化操作输出为新的DStream,输出操作将结果输出到硬盘上。转化操作包括无状态和有状态,重点关注有状态的转化操作。

(3)有状态的操作主要是两种类型,一种以时间阶段为滑动窗口进行操作,一种用来跟踪每个键的状态变化。基于窗口的操作需要两个参数,分别为窗口时长和滑动步长,两者都必须是SparkContext设置的批次间隔的整数倍,前者控制每次计算最近的多少个批次的数据,后者用来控制对新的DStream进行计算的间隔,如图所示,

1-基于窗口的转化操作

当需要在DStream跨批次维护状态时,使用updateStateByKey()为我们提供对一个状态变量的访问,用于键值对形式的DStream,比如跟踪用户访问网站的会话。

Spark体系

大数据时代

相关文章

  • Spark生态圈小贴士

    学习Spark的基本组件,主要由SparkSql、SparkStreaming等构成,简单理解其基本原理,构建Sp...

  • Spark简述

    Spark 简介 Spark生态圈 Spark 和 Hadoop比较 Spark安装数据处理???? Rdds R...

  • 第一讲 spark简介

    本章要点: 什么是spark Spark生态圈 RDD编程模型 1.1 什么是Spark Apache Spark...

  • (十五)大数据学习之Spark

    Spark 一.Spark生态圈: (1)Spark Core : RDD(弹性分布式数据集)(2)Spark S...

  • 《十小时入门大数据》学习笔记之大数据概述

    一、大数据与机器学习的关系 二、大数据生态圈 目前大数据主要有两大生态圈:》Hadoop生态圈》Spark生态圈 ...

  • Spark简介

    Spark生态圈 Spark之于Hadoop 个人理解偏向于Spark是一个计算框架,而Hadoop包含计算框架M...

  • Hadoop生态圈小贴士

    小贴士为你带来hadoop生态圈常用组件的基本原理,方便看官快速理解组件基本原理,构造hadoop生态圈的全貌。 ...

  • 【转载】Hadoop生态圈介绍

    Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hado...

  • hadoop生态圈介绍

    标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Had...

  • Spark生态圈

    scala,spark的学习门槛还是较高的,scala应该算是我学过的语言中觉得最难的一种了吧(除了英语..).....

网友评论

    本文标题:Spark生态圈小贴士

    本文链接:https://www.haomeiwen.com/subject/cckpoxtx.html