美文网首页
MapReduce:大集群下的单一数据进程(翻译)

MapReduce:大集群下的单一数据进程(翻译)

作者: Sun_d5f3 | 来源:发表于2017-04-24 06:24 被阅读0次

摘要

MapReduce 是一种编程模型,能够处理和产生数据序列的联系性实现。用户定义map函数处理键值对来生成中间键值对,通过reduce函数通过中间键值对的联系来合并所有的中间值。很多现实世界的任务都应用了这个模型,接下来将进行介绍。

在此函数类型之下的程序是自动平行并且执行在商用机器的大数据集群上的。这个实时系统做好了这些细节分割输入数据,机群调度,提交机器错误,以及管理机器间必要的交流。这让没有任何平行和分发系统开发经验的程序员来利用大型分发系统的数据。

MapReduce运行在联合机器的大型集群上,是高度可扩展的一个典型的MapReduce计算处理很多T级数据在数千计主机上。程序员发现程序是简单可用的因为数百的MapReduce程序已经被实现了以及超过一千个MapReduce工作在谷歌集群上每天执行着。

1 介绍

在过去的五年中,作者和很多谷歌人实现了数百个特殊目标计算处理大规模未经处理的数据,像是爬文档、网页要求日志等,来计算不同种类的分割数据像是倒置索引,网页文档图形结构的不同表达,每个主机爬数据的页数汇总,特定日期内的频率最高的请求等等。

相关文章

  • MapReduce:大集群下的单一数据进程(翻译)

    摘要 MapReduce 是一种编程模型,能够处理和产生数据序列的联系性实现。用户定义map函数处理键值对来生成中...

  • 大数据Hadoop之MapReduce认识

    源自Google的MapReduce计算模型。MapReduce是一种集群数据并行计算的编程模型,它并不提供数据处...

  • 【复习001】-20170722

    一、大数据基础 二、MapReduce和Yarn功能与架构Yarn(集群资源管理)的组件 三、MapReduce客...

  • 大数据生态

    大数据基础 以史观今 数据量是怎么变大的? 单机是怎么扛不住的? 集群为何难于管理? 三大论文 MapReduce...

  • 了解MapReduce

    MapReduce是面向大数据并行处理的计算模型、框架和平台。MapReduce是一个基于集群的高性能并行计算平台...

  • 数据仓库工具Hive

    数据仓库工具Hive Hive产生背景 直接使用MapReduce处理大数据,问题: MapReduce开放难度大...

  • 单一世界架构初探(04)计算迁移

    进程迁移是集群中关键性技术,计算迁移的概念继承自进程迁移,但为单一世界架构量身定制,同样,他也是单一世界架构的核心...

  • MapReduce的uber运行模式

    背景 在有些情况下,运行于Hadoop集群上的一些mapreduce作业本身的数据量并不是很大,如果此时的任务分片...

  • Hadoop集群的搭建

    hdfs集群:负责文件读写/namenode、datanode yarn集群:负责为mapreduce分配运算硬件...

  • Map和Reduce在Hadoop与Python中有何异同?

    Hadoop是一个大数据处理平台,也是一个集群,能够对海量数据进行存储和运算。MapReduce是Hadoop众多...

网友评论

      本文标题:MapReduce:大集群下的单一数据进程(翻译)

      本文链接:https://www.haomeiwen.com/subject/exquzttx.html