美文网首页
MapReduce的分区

MapReduce的分区

作者: 我的小猫不见了 | 来源:发表于2020-06-02 01:16 被阅读0次

1.分区涉及到的是多个reduceTask
如果只有1个或0个 , 那么就不存在分区

1.在没有自定义分区的时候,系统采用的 Hash分区
假如 1- 50000的数 2000个
两个区内,
一个区的所有数并不会比另一个区全部大 , 而是散列的,虽然是有序的
记住 ,到达每个reduce的数都是有序 ,但是不保证全局有序
局部有序

这个时候需要自定义分区 , 继承 partitioner , 设为

1-25000    :  part-00000
25000--    :  part-00001

这个时候我们才可以说 1区的最小值 , 比0区所有的都要大
但是这样做需要考虑的是 , 如果数据在很大
比如 300T
你需要抽样 , 看分布 , 不然很可能一个区分到10T , 另一个区分到 100T的情况
分区的目的是为了压力分布均匀.
就好比两个人挑100斤的东西 , 你让其中一个人180 .
另一个人20斤
那么肯定以最后一个完成作为基准

相关文章

  • MapReduce的分区

    1.分区涉及到的是多个reduceTask如果只有1个或0个 , 那么就不存在分区 1.在没有自定义分区的时候,系...

  • MapReduce分区组件

    MapReduce中分区组件 需求: 根据单词的长度给单词出现的次数的结果存储到不同文件中,以便于在快速查询 思路...

  • MapReduce 基础 (三)分区

    概念 在 MapReduce 中, 通过我们指定分区, 会将同一个分区的数据发送到同一个 Reduce 当中进行 ...

  • mapreduce自定义partition分区

    一、背景 背景继续上一篇文章《记一次mapreduce的简单优化》。在那篇文章中提到了mapreduce自带分区方...

  • MapRedece中的分区Partitioner

    MapRedece中的分区Partitioner 分析 MapReduce中会将map输出的k-v对,按照相同的k...

  • 2020-11-23-Spark-2(Spark-Core)

    要点:知道数据源分别为集合,文本 分区数的内涵以及读取时的偏移量的计算公式与内涵 1.MapReduce的中间结果...

  • 大数据学习day_5

    思考问题 MapReduce总结 MapReduce MapReduce的定义MapReduce是一种编程模型, ...

  • MapReduce 原理分析

    MapReduce 分析 User 请求 MapReduce 处理,MapReduce 接收到 User 的文件,...

  • 分布式计算系统MapReduce

    MapReduce MapReduce的核心思想:分治 分而治之 MapReduce编程步骤 MapReduc...

  • MapReduce入门

    MapReduce 1.x架构、MapReduce2.x架构 MapReduce1.x架构 MapReduce2....

网友评论

      本文标题:MapReduce的分区

      本文链接:https://www.haomeiwen.com/subject/nqrlohtx.html