美文网首页BATJ架构
计算引擎SPARK

计算引擎SPARK

作者: 裘马轻狂大帅 | 来源:发表于2019-06-04 18:17 被阅读2次

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序

相关文章

  • Spark计算中的数据倾斜

    本文的讨论场景限定在spark计算引擎,但是并不局限于spark,相关的讨论可以迁移到其他的计算引擎Spark计算...

  • 2018-07-23

    spark 概念 spark 特点 DAG引擎,减少过程写入磁盘开销 内存计算引擎,支持cache机制,使得中间过...

  • window环境下安装spark

    spark是大数据计算引擎,拥有Spark SQL、Spark Streaming、MLlib和GraphX四个模...

  • Spark计算引擎

    一、Spark简介 由加州大学伯克利分校的AMP实验室开源 大规模分布式通用计算引擎 具有高吞吐、低延时、通用易扩...

  • 计算引擎SPARK

    Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AM...

  • Spark基础与数仓应用调优

    计算引擎的发展 了解Spark Spark核心理念 数据应用Spark-sql Spark四大组件 Spark-s...

  • 第 1 章 Spark 概述

    1.1 什么是 Spark Spark 是一个快速(基于内存), 通用, 可扩展的集群计算引擎。并且 Spark ...

  • Spark应用运行流程

      Apache Spark是开源的、分布式的、集成计算引擎,支持在计算机集群上的并行数据计算。Spark支持多种...

  • Spark快速入门(1) 核心概念和抽象:RDD

    Spark简介 Spark是目前比较流程的大数据计算引擎。在Spark出现之前,MapReduce已经作为大数据领...

  • Spark 配置Kryo序列化机制

    一、Spark 的序列化 序列化Spark 是一个高性能、分布式的、基于内存计算的计算引擎,Spark 集群中包含...

网友评论

    本文标题:计算引擎SPARK

    本文链接:https://www.haomeiwen.com/subject/lcmrxctx.html