美文网首页
Spark简介

Spark简介

作者: 麦克阿瑟99 | 来源:发表于2018-09-08 22:56 被阅读0次

    Spark作为第二代大数据处理工具,跟hadoop对比,它是基于内存的,所以在迭代计算方便速度有了很大提升。我用到的主要是SparkCore,SparkSQL,SparkStreaming。Spark以Rdd作为基础,Rdd是一个分布式的容器,类似于java中的String数组,但是它是分布式的。Rdd中有各种算子,总的来说分为转化算子和行动算子,转换算子不触到真正的计算,当执行到行动算子时才会触发真正的计算。

    相关文章

      网友评论

          本文标题:Spark简介

          本文链接:https://www.haomeiwen.com/subject/baalgftx.html