美文网首页代码改变世界
hadoop大数据之shuffle过程

hadoop大数据之shuffle过程

作者: 萝卜切丝 | 来源:发表于2016-03-13 01:25 被阅读0次

学习hadoop已有一月之余,由于前段时间不太上心,导致脑海之中并没有留下什么映像,但是这两天的集中学习让我对于mapreduce过程中的shuffle有了一定的了解,所以现在赶紧记下这难得的感触,不期望能给别人带来感悟什么的,但求给自己留下一个记录和以后的自己留下一个“当初”。

 好了,言归正传,众所周知,hadoop的核心框架就是hdfs跟mapreduce,而hdfs主要负责的就是类似于Windows文件系统类似的存储、读写的职责,其实用unix形容跟贴切,不过原理大题是相同的,然后reduce负责的就是计算这一部分(简单理解),其实说白了就是数据分类,统一等等,了解hadoop的人都知道,数据是经过map的运算过后传递给hadoop的,然后从这里开始,如果不插入combiner的话就可以说已经进入到shuffle过程了,主要过程可以分为如下几步,map——>环型缓冲区——>磁盘文件——>合并文件——>reduce,这就应该可以说是shuffle的过程了,中间涉及了几个要点,当环型缓冲区的数据接近80%时,就会溢出到磁盘文件,当然也有可能产生阻塞现象,也就是缓冲区输出的速度赶不上map输入的速度,这是就会等写到文件先完成然后再进行map输入,在磁盘文件接受到数据后,会对其进行分区,排序等内部实现,然后合并文件时再针对于相同分区,相同组进行排序,然后再输出给reduce。

终于敲完了,发现手机打字好累,这次写的不太严谨,也没有多少干货,不过或多或少还是挤出了一点东西,不求什么,只是想给自己今天的学习做个总结。

不过话说,我的伪分布式集群环境都没有搭好呢,哈哈,下次来个专题就叫《hadoop伪分布式集群搭建及所需软件的提供》,哈哈

相关文章

  • hadoop大数据之shuffle过程

    学习hadoop已有一月之余,由于前段时间不太上心,导致脑海之中并没有留下什么映像,但是这两天的集中学习让我对于m...

  • Spark Shuffle

    1 Hadoop Shuffle 过程 在MapReduce框架,Shuffle是连接 Map 和 Reduce ...

  • Hadoop MapReduce优化和资源调度器

    1.Hadoop MapReduce Shuffle过程 2.Shuffle过程要点记录 每个Map Task把输...

  • spark shuffle 过程

    对比 Hadoop MapReduce 和 Spark 的 Shuffle 过程 如果熟悉 Hadoop MapR...

  • hadoop shuffle 过程

    MapReduce简介 在Hadoop MapReduce中,框架会确保reduce收到的输入数据是根据key排...

  • 1.

    1.hadoop的shuffle的过程 (1)Map端的shuffleMap端会处理输入数据并产生中间结果,这个中...

  • Spark和Hadoop的shuffule

    spark的shuffle和Hadoop的shuffle(mapreduce)的区别和关系是什么? Hadoop ...

  • Hadoop Mapreduce shuffle 过程详解

    转载自:https://my.oschina.net/u/2293326/blog/607540 欢迎阅读原创。 ...

  • hadoop的shuffle过程总结

    我尽量用好懂的方式总结一下,踩过坑的前辈多提意见,同时也希望为各位同学提供帮助。 简单的打个比方,shuffle就...

  • hadoop中shuffle过程详解

    先上图: shuffle的过程大致范围是:map task开始到reduce task开始其中分成map端和red...

网友评论

    本文标题:hadoop大数据之shuffle过程

    本文链接:https://www.haomeiwen.com/subject/fdnxlttx.html