美文网首页
Hadoop学习笔记

Hadoop学习笔记

作者: 柴柴总 | 来源:发表于2021-06-07 20:56 被阅读0次

    Hadoop——大数据框架,有多种语言版本,包括python,JAVA等

    为什么需要Hadoop?

    数据量大,计算量大,单个机器无法完成

    可将数据分布在多个机器上由多个机器共同完成计算

    大数据计算需要各个机器相互协调工作,大数据算法有共同点,可将其做成框架,Hadoop就是这样的框架

    MapReduce,Google提出的框架

    以下面的例子来解释MapReduce的概念
    样例:Google搜索引擎,想知道大家对哪些关键字感兴趣,以天为单位,收集所有人搜过的关键字,统计其出现的次数,用户搜索的关键字数据文件存在多台机器上。

    1. Map阶段:每台机器处理本机的数据,计算本机文件中的关键字个数
    2. Shuffing阶段:机器A, B, C, D......从1-n所有机器上取出Map的结果,并按关键字组合
    3. Reduce阶段:对每一个搜索关键字统计出现总次数
    MapReduce Model

    使用Hadoop时只需要编写Map函数和Reduce函数,其他的框架已经帮我们实现了

    参考文章

    1. https://zhuanlan.zhihu.com/p/20176725
    2. Hadoop权威指南

    相关文章

      网友评论

          本文标题:Hadoop学习笔记

          本文链接:https://www.haomeiwen.com/subject/ajkleltx.html