美文网首页玩转大数据大数据大数据,机器学习,人工智能
大数据入门与实战-Hadoop生态圈技术总览

大数据入门与实战-Hadoop生态圈技术总览

作者: 致Great | 来源:发表于2019-03-08 10:57 被阅读24次

    1 Hadoop生态圈技术纵览


    2 分布式概念

    3 HDFS 读写过程

    HDFS 读过程
    HDFS 写过程

    4 伪分布式集群

    5 MapReduce

    MapReduce是一个编程框架,允许我们在分布式环境中对大型数据集执行分布式和并行处理:

    • MapReduce由两个不同的任务组成 Map和Reduce。
    • 正如MapReduce的名称所示,reducer阶段发生在mapper阶段完成之后。
    • 因此,第一个是Map任务,其中读取并处理数据块以生成作为中间输出的键值对。
    • Mapper或map作业(键值对)的输出被输入到Reducer。
    • reducer从多个map作业中接收键值对。
    • 然后,reducer将这些中间数据元组(中间键值对)聚合成一组较小的元组或键值对,这是最终输出。

    MapReduce教程:MapReduce的字数统计示例
    让我们通过一个示例来了解MapReduce是如何工作的,有一个 名为example.txt的文本文件,其内容如下:

    Dear, Bear, River, Car, Car, River, Deer, Car ,Bear
    

    现在,假设我们必须使用MapReduce对sample.txt执行单词统计,将找到这些单词和每个单词出现的次数。


    • 首先,我们将输入分成三个分区,如图所示。这将在所有Map节点之间分配工作。
    • 然后,我们对每个映射器中的单词进行标记,并为每个标记或单词提供硬编码值(1)。给出硬编码值等于1的理由是每个单词本身都会出现一次。
    • 现在,将创建一个键值对列表,其中键是单词和值是1。所以,对于第一行(Dear, Bear, River),我们有3个键值对 - Dear,1; Bear,1; River,1。映射过程在所有节点上保持不变。
    • 在映射器阶段之后,发生分区和重排的分区过程,以便将具有相同键的所有元组发送到相应的reducer。
    • 因此,在排序和重排阶段之后,每个reducer将具有唯一键和与该键相对应的值列表。例如,Bear,[1,1]; Car,[1,1,1] ..等
    • 现在,每个Reducer计算该值列表中存在的值。如图所示,reducer获取一个值列表,其中键值为[1,1]。然后,它计算列表中的1的数量,并将最终输出给出为 - Bear,2。
    • 最后,然后收集所有输出键/值对并将其写入输出文件中。

    参考资料

    MapReduce Tutorial – Fundamentals of MapReduce with MapReduce Example
    https://www.cniao5.com/

    相关文章

      网友评论

        本文标题:大数据入门与实战-Hadoop生态圈技术总览

        本文链接:https://www.haomeiwen.com/subject/yaglpqtx.html