美文网首页
认识Spark

认识Spark

作者: NEO_X | 来源:发表于2021-11-10 14:30 被阅读0次

对于Spark的认识,在以下视频中说明。全部免费课程可在腾讯课堂查看:个人大数据平台的搭建与学习实践-PySpark-学习视频教程-腾讯课堂 (qq.com)


2-认识PySpark

首先通过Spark官方文档的说明进行认识Spark,官网地址为:http://spark.apache.org/

就依据主页上的说明,进行对Spark认识。

Spark官网

是什么

Apache Spark是一个用于大规模数据处理的统一分析引擎。

运行速度

Apache Spark使用最先进的DAG调度器、查询优化器和物理执行引擎,实现了批处理和流数据的高性能。

在“逻辑回归”测试中,Spark的执行速度是Hadoop的100倍,所以Spark计算引擎具有高性能。

Spark执行效率

上手难度

对于Spark可以用Java、Scala、Python、R和SQL快速编写应用程序,所以受众很广泛,并且于Python、R和SQL的对初学者也很友好,适合入门学习。

Spark提供了80多个高级操作符,可以轻松构建并行应用。可以在Scala、Python、R和SQL shell中交互地使用它。

组成模块

Spark由4大功能库构成,分别是:Spark SQL、Spark Streaming、MLib、GraphX。

Spark支持一系列库,如SQL和DataFrames进行数据分析处理,用于机器学习的MLlib, GraphX和数据流Spark Streaming。可以在同一个应用程序中无缝地组合这些库。

核心模块 核心模块文档

执行平台

可以在EC2、Hadoop YARN、Mesos或Kubernetes上以独立集群模式运行Spark。可访问HDFS、Apache Cassandra、Apache HBase、Apache Hive等数百个数据源。所以Spark并不是要求一定要直接对接Hadoop。

Spark运行的平台

实验的Spark环境

我们在第1讲在Windows上构建了Spark 2环境,在第2讲构建HDP大数据平台中是Spark 1环境。

所以我们有两套的Spark环境,本来是应该就对Spark 2进行说明,但由于HDP中的Spark环境

可以连接大数据环境中的不同的服务如Hive、HDFS进行连接操作,所以对Spark 1也顺带说明,并且对比与Spark 2的差异。

相关文章

  • 认识Spark

    对于Spark的认识,在以下视频中说明。全部免费课程可在腾讯课堂查看:个人大数据平台的搭建与学习实践-PySpar...

  • Spark 简介与基本概念

    目标 阅读完本文,你讲对 Hadoop,Spark 有个简单认识,并学习到 Spark 中的一些基础概念。 背景 ...

  • 阿里大佬介绍Spark Operator的设计和实现相关的内容

    Spark认识 Spark使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样...

  • Spark踩坑记:初试

    Spark简介 整体认识 Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在20...

  • Spark入门学习

    注:这篇博客讲的是自己对Spark的初步认识和学习,可能会有错误。参考资料是厦门大学的Spark学习基础,对应网址...

  • 从零开始认识 Spark

    前言 Spark的知识点很多,决定分多P来慢慢讲?,比较关键的RDD算子其实已经写了大半,奈何内容还是太多了就不和...

  • 大数据面试必备知识点总结:Spark,Hadoop,kafka,

    spark spark core spark sql spark streaming spark编程模式 spar...

  • spark安装与部署

    spark安装与部署 spark概述 spark平台结构spark统一栈 spark官网 spark的安装,配置,...

  • Spark 入门

    Spark Spark 背景 什么是 Spark 官网:http://spark.apache.org Spark...

  • Spark Core 解析:RDD

    引言 Spark Core是Spark的核心部分,是Spark SQL,Spark Streaming,Spark...

网友评论

      本文标题:认识Spark

      本文链接:https://www.haomeiwen.com/subject/gukvzltx.html