美文网首页
Hadoop入门

Hadoop入门

作者: 白纸糊 | 来源:发表于2018-12-25 17:25 被阅读0次

    数据仓库与数据挖掘

    1. 什么是Hadoop
      1. 分布式
      2. 海量数据存储计算

    作者: doug cutting

    google 三篇论文 --Hadoop 思想之源

    MAp-Reduce --> MR
    GFS --> HDFS
    BigTable --> HBase


    缺点
    优点
    1. hadoop组成
      1. MapReaduce(计算)
      2. Yarm(资源调度)
      3. HDFS(数据存储)
      4. Common(辅助工具)


        hadoop组成

    1. 重要目录
      (1)bin目录:存放对Hadoop相关服务(HDFS,YARN)进行操作的脚本
      (2)etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件
      (3)lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
      (4)sbin目录:存放启动或停止Hadoop相关服务的脚本
      (5)share目录:存放Hadoop的依赖jar包、文档、和官方案例

    一.架构详解

    1. HDFS
      1. NameNode
      2. DataNode
      3. Secondary NameNode
    image.png
    1. YARN
      1.RescorceManager(RM)
      2.ApplicationMaster(AM)
      3.NodeManager(NM)
      4.Container


      image.png

    3.MapReaduce

    将计算过程分为两个阶段:Map和Reduce
    1.Map阶段并行处理输入数据

    2.Reduce阶段对Map结果进行汇总


    image.png

    二.Hadoop运行模式

    • 本地运行模式
    • 伪分布式运行模式
    • 完全分布式运行模式(开发)

    三.推荐系统框架

    image.png

    公司部门

    QQ图片20181225170603.png

    本地运行模式

    hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount winput output

    相关文章

      网友评论

          本文标题:Hadoop入门

          本文链接:https://www.haomeiwen.com/subject/cdyakqtx.html