Spark RDD

作者: 98Future | 来源:发表于2017-11-05 07:06 被阅读0次

reference: https://www.tutorialspoint.com/apache_spark/apache_spark_rdd.htm

Map-Reduce的瓶颈:

多个Map-Reduce job之间, 会先把data存到stable storage system: HDFS里。然后再read出来。

可以认为是硬盘的读取,非常慢。所以Hadoop花了90%在IO读取上。

以下是map-reduce的结构:

Key in Spark是使用RDD。支持in memory processing computation. 

把中间结果存放在分布式内存里,如果数据太大存不下才会放在disk。

相关文章

网友评论

      本文标题:Spark RDD

      本文链接:https://www.haomeiwen.com/subject/efhcmxtx.html