美文网首页
001_spark的前世今生

001_spark的前世今生

作者: iarchitect | 来源:发表于2019-06-07 23:28 被阅读0次

    spark是什么

    spark是一种通用的大数据计算框架,正如传统大数据技术Hadoop的MapReduce,Hive引擎,以及storm流式实时计算引擎等。
    spark包含了大数据领域常见的各种计算框架:比如spark core用于离线计算,spark sql 用于交互式查询,spark streaming用于实时流式计算,spark MLlib用于机器学习,spark GraphX用于图计算。
    spark 主要用于大数据的计算,而Hadoop以后主要用于大数据的存储(比如HDFS,hive,hbase等),以及资源调度(Yarn)。
    spark+Hadoop的组合,是未来大数据领域最热门的组合,也是最有前景的组合!


    大数据体系概览(saprk的地位).png

    spark的介绍

    spark是一种“one stack to rule the all”的大数据计算框架,期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务,Apache官方,对spark的定义就是:通用的大数据快速处理引擎。
    spark使用spark RDD,spark sql,spark streaming,MLlib,GrahpX成功解决了大数据领域中,离线批处理,交互式查询,实时流计算,机器学习和图计算等最重要的任务和问题。
    spark除了一站式的特点之外,另一个重要的特点,就是基于内存进行计算,从而让它的速度可以达到MapReduce,hive的数倍,甚至数十倍!
    现在已经有很多大公司正在生产环境下深度的使用spark作为大数据的计算框架,包括ebay,yahoo,bat,网易,京东,华为,大众点评,优酷土豆,搜索等等。
    spark同时也获得了多个世界顶级IT厂商的支持,包括IBM,intel等。

    spark vs MapReduce的计算模型(内存).png

    spark sql 和 hive的关系

    image.png

    spark vs hive

    image.png

    spark streaming和storm的计算模型对比

    image.png
    image.png

    spark的个人使用体会

    image.png

    spark在国内的现状以及未来的期望

    image.png

    相关文章

      网友评论

          本文标题:001_spark的前世今生

          本文链接:https://www.haomeiwen.com/subject/iahbxctx.html