大数据入门与实战-Hadoop生态圈技术总览

大数据入门与实战-Hadoop生态圈技术总览

作者: 致Great | 来源:发表于2019-03-08 10:57 被阅读24次

大数据入门与实战-Hadoop生态圈技术总览
《十小时入门大数据》学习笔记之大数据概述
Hadoop：1、Hadoop基础与编译
HADOOP大数据技术栈简介
大数据开发必读书目（持续更新）
hadoop生态圈介绍
2019-02-18
hadoop面试题之HDFS
《Docker技术入门与实战.pdf》PDF高清完整版-免费下载
大数据学习之旅---HDFS文件系统

1 Hadoop生态圈技术纵览

2 分布式概念

3 HDFS 读写过程

HDFS 读过程

HDFS 写过程

4 伪分布式集群

5 MapReduce

MapReduce是一个编程框架，允许我们在分布式环境中对大型数据集执行分布式和并行处理：

MapReduce由两个不同的任务组成 Map和Reduce。
正如MapReduce的名称所示，reducer阶段发生在mapper阶段完成之后。
因此，第一个是Map任务，其中读取并处理数据块以生成作为中间输出的键值对。
Mapper或map作业（键值对）的输出被输入到Reducer。
reducer从多个map作业中接收键值对。
然后，reducer将这些中间数据元组（中间键值对）聚合成一组较小的元组或键值对，这是最终输出。

MapReduce教程：MapReduce的字数统计示例
让我们通过一个示例来了解MapReduce是如何工作的，有一个名为example.txt的文本文件，其内容如下：

Dear, Bear, River, Car, Car, River, Deer, Car ,Bear

现在，假设我们必须使用MapReduce对sample.txt执行单词统计，将找到这些单词和每个单词出现的次数。

首先，我们将输入分成三个分区，如图所示。这将在所有Map节点之间分配工作。
然后，我们对每个映射器中的单词进行标记，并为每个标记或单词提供硬编码值（1）。给出硬编码值等于1的理由是每个单词本身都会出现一次。
现在，将创建一个键值对列表，其中键是单词和值是1。所以，对于第一行（Dear, Bear, River），我们有3个键值对 - Dear，1; Bear，1; River，1。映射过程在所有节点上保持不变。
在映射器阶段之后，发生分区和重排的分区过程，以便将具有相同键的所有元组发送到相应的reducer。
因此，在排序和重排阶段之后，每个reducer将具有唯一键和与该键相对应的值列表。例如，Bear，[1,1]; Car，[1,1,1] ..等
现在，每个Reducer计算该值列表中存在的值。如图所示，reducer获取一个值列表，其中键值为[1,1]。然后，它计算列表中的1的数量，并将最终输出给出为 - Bear，2。
最后，然后收集所有输出键/值对并将其写入输出文件中。

参考资料

MapReduce Tutorial – Fundamentals of MapReduce with MapReduce Example
https://www.cniao5.com/

相关文章

大数据入门与实战-Hadoop生态圈技术总览
1 Hadoop生态圈技术纵览 2 分布式概念 3 HDFS 读写过程 4 伪分布式集群 5 MapReduce ...
《十小时入门大数据》学习笔记之大数据概述
一、大数据与机器学习的关系二、大数据生态圈目前大数据主要有两大生态圈：》Hadoop生态圈》Spark生态圈 ...
Hadoop：1、Hadoop基础与编译
Hadoop基础大数据概述 Hadoop与Hadoop生态圈 Hadoop 狭义: 软件(HDFS、MapRe...
HADOOP大数据技术栈简介
一、大数据技术图谱 Hadoop Hadoop狭义指Apacha的一款软件，广义指的是Hadoop大数据生态圈。H...
大数据开发必读书目（持续更新）
1.Hadoop Hadoop大数据开发案例教程与项目实战.pdf Hadoop技术内幕深入解析YARN架构设计...
hadoop生态圈介绍
标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Had...
2019-02-18
大数据和Hadoop生态圈第一章大数据和Hadoop生态圈本章主要内容：理解大数据的挑战了解Hadoop...
hadoop面试题之HDFS
1、简单介绍下hadoop吧？广义上hadoop是指与hadoop相关的大数据生态圈。包含hive、spar...
《Docker技术入门与实战.pdf》PDF高清完整版-免费下载
《Docker技术入门与实战.pdf》PDF高清完整版-免费下载《Docker技术入门与实战.pdf》PDF高清...
大数据学习之旅---HDFS文件系统
2019/11/19 Caesar 前言入门大数据技术，当选Hadoop。可以说Hadoop是大数...

网友评论

本文标题：大数据入门与实战-Hadoop生态圈技术总览

本文链接：https://www.haomeiwen.com/subject/yaglpqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

玩转大数据

大数据，机器学习，人工智能

大数据爬虫Python AI Sql

热点阅读

玩转大数据

大数据

大数据，机器学习，人工智能

大数据爬虫Python AI Sql

关于我们|服务条款|联系我们|大数据入门与实战-Hadoop生态圈技术总览|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！