spark简单介绍(一)

作者: Alukar | 来源:发表于2018-06-22 21:59 被阅读18次

一,spark历史

诞生于2009年,加州大学伯克利分校RAD实验室的一个研究项目,最初是基于Hadoop Mapreduce 的,

发现Mapreduce在迭代式计算和交互式上低效,引入了内存存储。

2010年3月份spark开源

2011年AMP实验室在spark上开发高级组件,例如:spark Streaming

2013年转移到了Apache下,不就成了顶级项目

二,spark特点

    1,spark是快速的: spark扩充了Mapreduce计算模型,spark是基于内存的运算;

    2,spark是通用的:spark的设计容纳了其他分布式系统拥有的功能,批处理,迭代式计算,交互查询和流处理等,

优点:降低了维护成本。

三,spark组件

   spark包括多个紧密集成的组件

Spark Core:

包含spark的基本功能,包括任务调度,内存管理,容错机制等,

内部定义了RDDs(弹性分布式数据集)

提供了很多APi来创建和操控这些RDDs

为其他组件提供底层的服务

Spark SQL :

spark处理结构化数据的库,就行mysql,hive sql 一样,

企业中用来做报表统计

Spark Streaming:

实时数据流处理组件,类似storm

其提高了api来提供实时流数据

企业主用来从kafka接受数据做实时统计

Mlib:

一个包含通用机器学习功能的包,Machine learning lib,

包含分类,聚类,归类等,还包括模型评估和数据导入,都支持集群横向扩展

Graphx:

图形处理的库,并进行图的并行运算,像spark sql ,spark Streaming 一样,它也继承了RDDs API

    提供了各种图的操作,和常用的图算法,例如:PangeRank算法,

应用场景:图计算

Cluster Managers :

    集群管理,spark自带一个集群管理是单独调度器,常见的集群管理包括 Hadoop YARN , Apache mesos

给大家推荐一个大数据学习交流群 806025609,群里会有学习大数据的资料和学习路线分享,大家碰到什么问题也可以得到解答。欢迎大家来一起交流学习!~

相关文章

  • spark简单介绍(一)

    一,spark历史 诞生于2009年,加州大学伯克利分校RAD实验室的一个研究项目,最初是基于Hadoop Map...

  • 简单介绍spark

    Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校...

  • Spark简单介绍(二)

    spark是什么? spark开源的类Hadoop MapReduce的通用的并行计算框架 spark基于map ...

  • spark基础学习(二)

    一、绪论 上一章节对Spark组件进行了简单的描述,并详细介绍了RDD的内容。本章节主要介绍spark组件之一...

  • Spark 学习资料

    Spark:分布式数据处理引擎 1.学习资料 Spark:大数据的“电光石火 spark介绍文章,不重要,简单过下...

  • 让书写和手绘不止于纸

    首先简单介绍一下bamboo spark和印象笔记,以及二者搭配使用的原因。 【bamboo spark】 一款2...

  • spark LDA scala版本

    本文主要介绍spark LDA的使用,并且编写了EMLDAOptimizer文档推断的方法。 大纲 LDA简单介绍...

  • Java-Spark系列7-Spark streaming介绍

    一.Spark streaming介绍 1.1 Spark streaming简介 Spark Streaming...

  • 初始Spark

    Spark官方介绍Apache Spark™ is a unified analytics engine for ...

  • 那些被问懵的Flink面试题

    前言 1 Flink基础(适合初入职场) 简单介绍一下 Flink Flink相比传统的Spark Streami...

网友评论

    本文标题:spark简单介绍(一)

    本文链接:https://www.haomeiwen.com/subject/ngulyftx.html