美文网首页
记录一下MapReduce

记录一下MapReduce

作者: Bamboooooo_Yoo | 来源:发表于2017-11-06 16:23 被阅读0次

角色:Master & Worker( Master/Reducer )
以统计词频为例,M 表示输入的数据量,N表示输出的数据量,P表示Mapper个数,R表示Reducer个数
M=10000000:1000万个文档
N=3000:输出3000类,统计3000个单词各出现了多少次
P=10000:有10000个Mapper,则每个Mapper分析1000个文档,将特定单词的数据结果传给特定的R,如:

{'today': 371} 传给负责统计 'today' 这个单词的Reducer,
{'many': 5214} 传给负责统计 'many' 这个单词的Reducer

R=100:有100个Reducer汇总,则每个Reducer要汇总30个单词的信息,会收到来自10000个Mapper的数据,如:

来自M1的中间数据 {'today': 371},M2的中间数据{'today': 586} 等等,然后汇总M1~M1000的数据,输出today的总数


相关文章

  • 记录一下MapReduce

    角色:Master & Worker( Master/Reducer )以统计词频为例,M 表示输入的数据量,N表...

  • YARN与MapReduce

    YARN与MapReduce的区别 首先介绍一下老的MapReduce的机制,老的MapReduce的具体流程如下...

  • 初试mongodb mapreduce

    初次试用了一下mongodb的mapreduce方法,总结了一些粗浅的认识,记录如下: 下面例子中,documen...

  • mapreduce分隔符笔记

    之前写mapreduce程序,输出结果总有一些莫名的“\t”,非常苦恼,研究了一下,在这里记录一下自己的理解。 主...

  • hadoop的mapReduce历史服务配置及查看

    查看MapReduce历史执行情况报错 查看已经运行完成的MapReduce作业记录,比如用了多少个Map、用了多...

  • 大数据系统编程Tip

    大数据系统编程中,总会有一些意想不到的地方,开个帖子记录?一下。 hadoop MapReduce 编程中主函数各...

  • MapReduce论文阅读记录

    本文为阅读MapReduce论文的记录,内容主要是论文的第三部分——实现。方便本人今后查看。 1. 运行概述 下图...

  • MapReduce编程实例(一)-求平均数

    本文章为了整理一下上课老师教授的MapReduce例子。MapReduce编程实例(一)-求平均数 现在有一个文件...

  • hadoop笔记4--MapReduce框架

    这一篇文章记录一下hadoop中的分布式运算MapReduce的过程,作为《深入理解大数据》的学习笔记。 上一篇看...

  • 大数据学习day_5

    思考问题 MapReduce总结 MapReduce MapReduce的定义MapReduce是一种编程模型, ...

网友评论

      本文标题:记录一下MapReduce

      本文链接:https://www.haomeiwen.com/subject/yymlmxtx.html