spark是什么
spark是一种通用的大数据计算框架,正如传统大数据技术Hadoop的MapReduce,Hive引擎,以及storm流式实时计算引擎等。
spark包含了大数据领域常见的各种计算框架:比如spark core用于离线计算,spark sql 用于交互式查询,spark streaming用于实时流式计算,spark MLlib用于机器学习,spark GraphX用于图计算。
spark 主要用于大数据的计算,而Hadoop以后主要用于大数据的存储(比如HDFS,hive,hbase等),以及资源调度(Yarn)。
spark+Hadoop的组合,是未来大数据领域最热门的组合,也是最有前景的组合!
大数据体系概览(saprk的地位).png
spark的介绍
spark是一种“one stack to rule the all”的大数据计算框架,期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务,Apache官方,对spark的定义就是:通用的大数据快速处理引擎。
spark使用spark RDD,spark sql,spark streaming,MLlib,GrahpX成功解决了大数据领域中,离线批处理,交互式查询,实时流计算,机器学习和图计算等最重要的任务和问题。
spark除了一站式的特点之外,另一个重要的特点,就是基于内存进行计算,从而让它的速度可以达到MapReduce,hive的数倍,甚至数十倍!
现在已经有很多大公司正在生产环境下深度的使用spark作为大数据的计算框架,包括ebay,yahoo,bat,网易,京东,华为,大众点评,优酷土豆,搜索等等。
spark同时也获得了多个世界顶级IT厂商的支持,包括IBM,intel等。
spark sql 和 hive的关系
image.pngspark vs hive
image.pngspark streaming和storm的计算模型对比
image.pngimage.png
网友评论