美文网首页
Spark基础系列之一--Spark是什么

Spark基础系列之一--Spark是什么

作者: 微生活_小阿楠 | 来源:发表于2020-05-02 06:35 被阅读0次

    传送门
    Spark实战系列之一--Spark是什么
    Spark实战系列之二--什么是RDD以及RDD的常用API
    Spark实战系列之三--RDD编程基础上
    Spark实战系列之四--RDD编程基础下
    Spark实战系列之五--键值对RDD
    Spark实战系列之六--数据读写
    Spark实战系列之七--综合案例
    Spark基础系列之八--Spark SQL是什么
    Spark基础系列之九--使用Spark SQL读写数据库
    传送门

    一、Spark简介

    Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发的通用内存并行计算框架

    Spark使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集,具有以下特点。

    • 1.运行速度快:Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。官方提供的数据表明,如果数据由磁盘读取,速度是Hadoop MapReduce的10倍以上,如果数据从内存中读取,速度可以高达100多倍。
    • 2.易用性好:Spark不仅支持Scala编写应用程序,而且支持Java和Python等语言进行编写,特别是Scala是一种高效、可拓展的语言,能够用简洁的代码处理较为复杂的处理工作。
    • 3.通用性强:Spark生态圈即BDAS(伯克利数据分析栈)包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件,这些组件分别处理Spark Core提供内存计算框架、SparkStreaming的实时处理应用、Spark SQL的即席查询、MLlib或MLbase的机器学习和GraphX的图处理。
    • 4.随处运行:Spark具有很强的适应性,能够读取HDFS、Cassandra、HBase、S3和Techyon为持久层读写原生数据,能够以Mesos、YARN和自身携带的Standalone作为资源管理器调度job,来完成Spark应用程序的计算。

    相关文章

      网友评论

          本文标题:Spark基础系列之一--Spark是什么

          本文链接:https://www.haomeiwen.com/subject/qupzwhtx.html