Spark RDD

作者: 98Future | 来源:发表于2017-11-05 07:06 被阅读0次

    reference: https://www.tutorialspoint.com/apache_spark/apache_spark_rdd.htm

    Map-Reduce的瓶颈:

    多个Map-Reduce job之间, 会先把data存到stable storage system: HDFS里。然后再read出来。

    可以认为是硬盘的读取,非常慢。所以Hadoop花了90%在IO读取上。

    以下是map-reduce的结构:

    Key in Spark是使用RDD。支持in memory processing computation. 

    把中间结果存放在分布式内存里,如果数据太大存不下才会放在disk。

    相关文章

      网友评论

          本文标题:Spark RDD

          本文链接:https://www.haomeiwen.com/subject/efhcmxtx.html