spark.1

作者: 瓜皮小咸鱼 | 来源:发表于2019-04-22 16:38 被阅读0次

Spark的组成:
SparkCore:将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度,RPC,序列化和压缩,并为运行在其上的上层组件提供API
SparkSQL:Spark SQL是Saprk来操作结构化数据的程序包,可以让我们使用SQL语句的方式来查询数据,Spark支持多种数据源,包含hive表,parquest以及json等内容。
SparkStreaming:Spark提供的实时数据进行流式计算的组件。
MLlib:机器学习算法的实现库。
GraphX:提供一个分布式图计算框架,能高效进行图计算。
BlinkDB:用于在海量数据上进行交互式SQL的近似查询引擎。
Tachyon:以内存为中心高容错的分布式文件系统。

相关文章

  • spark.1

    Spark的组成:SparkCore:将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度,RPC,序...

网友评论

      本文标题:spark.1

      本文链接:https://www.haomeiwen.com/subject/arvygqtx.html