大数据基础之Spark

作者: bd8941f5f5cc | 来源:发表于2018-11-15 11:03 被阅读2次

    背景

    Spark 是 2010 年由 UC Berkeley AMPLab 开源的一款 基于内存的分布式计算框架,2013 年被Apache 基金会接管,是当前大数据领域最为活跃的开源项目之一(http://spark.apache.org/)。

    Spark 在 MapReduce 计算框架的基础上,支持计算对象数据可以直接缓存到内存中,大大提高了整体计算效率。特别适合于数据挖掘与机器学习等需要反复迭代计算的场景。

    特性

    高效:Spark提供 Cache 机制,支持需要反复迭代的计算或者多次数据共享,基于Spark 的内存计算比 Hadoop MapReduce 快100倍。

    易用:Spark提供 20 多种数据集操作类型,并支持使用 Python 和 Scala 脚本开发应用。

    先进架构:Spark采用 Scala 语言编写,基于 DAG 图的执行引擎,减少多次计算之间中间结果写到 HDFS 的开销。

    应用场景

    Spark之上有四种应用工具库。

    Spark Streaming: 用于流式计算。

    MLlib:用于机器学习(聚类、协同过滤等)。

    Spark SQL:用于处理结构化数据。

    GraphX:用于图和图并行计算的API。

    目前主要应用在广告精准投放系统志报表即时查询、以及推荐系统等业务场景。这些应用场景的共同特点是计算量大且效率要求高。

    部署模式

    Spark有三种部署模式。

    Standalone:使用Spark自带的集群管理器。

    Spark on Mesos:使用 Mesos 管理资源。

    Spark on YARN:使用 YARN 管理资源。

    任务流程

    Spark重要组件包括 Driver Program(Driver) 和Executor。以 Standalone(Driver 运行在 Client)模式为例介绍任务执行流程。

    1. 客户端运行用户程序,启动 Driver。

    2. Driver将作业转换为DAG图(类似数据处理的流程图),根据策略将DAG图划分为多个Stage,最终生成一系列最小可执行的Task。

    3. Driver根据Task的需求,向Master申请运行Task所需的资源。

    4. Master为Task调度分配满足需求的Worker节点,在Worker节点启动Exeuctor。

    5. Exeuctor启动后向Driver注册。

    6. Driver将Task调度到Exeuctor执行。

    7. Executor执行结果写入文件或返回Driver。

    很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系。

    相关文章

      网友评论

        本文标题:大数据基础之Spark

        本文链接:https://www.haomeiwen.com/subject/hmnefqtx.html