美文网首页
Spark-为什么比MR快

Spark-为什么比MR快

作者: Eqo | 来源:发表于2022-06-04 21:12 被阅读0次

    spark简介

    将数据封装到rdd集合当中 调用集合当中的函数 处理数据
    类似mr 计算引擎,针对大规模数据计算引擎,统一分析引擎,支持多种数据源

    Spark的各个组件

    image.png
    • Spark Core
      sprak最核心 最基础的模块 ,包括 RDD 弹性分布式数据集, 任务调度、内存管理、错误恢复、与存储系统交互等 RDD和共享变量( 累加器 广播变量)
    • Spark Sql
      使用最多模块,可以使用SQL或Hive的HQL来查询数据,并可以与RDD的操作相结合使用
    • Sprak Streaming
      spark当中做实时流处理的
    • Graophx
      机器学习

    第一 spark在处理数据时,可以将中间数据存储在内存当中
    而mapreduce当中存在shuffle,频繁的跟磁盘进行io

    image.png

    第二 Spark Job调度方式,以DAG方式调度(作业Job,划分程很多部分:Stage阶段),并且任务Task线程方式运行。省略任务运行时频繁启动和销毁进程时间
    mr都是启动一个进程去执行


    image.png

    第三 spark当中是把数据封装到rdd当中,调用rdd的算子去分析数据,且rdd之间有依赖性,容错率高 而mr是 启动一个mr到磁盘当中读取数据 使用MR去处理

    总结

    image.png

    相关文章

      网友评论

          本文标题:Spark-为什么比MR快

          本文链接:https://www.haomeiwen.com/subject/akllmrtx.html