美文网首页
尚硅谷大数据技术之Oozie

尚硅谷大数据技术之Oozie

作者: 尚硅谷教育 | 来源:发表于2018-12-18 10:35 被阅读22次

    第1章 Oozie简介
    Oozie英文翻译为:驯象人。一个基于工作流引擎的开源框架,由Cloudera公司贡献给Apache,提供对Hadoop MapReduce、Pig Jobs的任务调度与协调。Oozie需要部署到Java Servlet容器中运行。主要用于定时调度任务,多任务可以按照执行的逻辑顺序调度。
    第2章 Oozie的功能模块介绍
    2.1 模块

    1. Workflow
      顺序执行流程节点,支持fork(分支多个节点),join(合并多个节点为一个)
    2. Coordinator
      定时触发workflow
    3. Bundle Job
      绑定多个Coordinator
      2.2 常用节点
    4. 控制流节点(Control Flow Nodes)
      控制流节点一般都是定义在工作流开始或者结束的位置,比如start,end,kill等。以及提供工作流的执行路径机制,如decision,fork,join等。
    5. 动作节点(Action Nodes)
      负责执行具体动作的节点,比如:拷贝文件,执行某个Shell脚本等等。
      第3章 Oozie的部署
      3.1 部署Hadoop(CDH版本的)
      3.1.2 修改Hadoop配置
      core-site.xml

      <property>
      <name>hadoop.proxyuser.atguigu.hosts</name>
      <value>*</value>
      </property>


    <property>
    <name>hadoop.proxyuser.atguigu.groups</name>
    <value>*</value>
    </property>
    mapred-site.xml

    <property>
    <name>mapreduce.jobhistory.address</name>
    <value>hadoop102:10020</value>
    </property>


    <property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hadoop102:19888</value>
    </property>
    yarn-site.xml

    <property>
    <name>yarn.log.server.url</name>
    <value>http://hadoop102:19888/jobhistory/logs/</value>
    </property>
    完成后:记得scp同步到其他机器节点

    本教程由尚硅谷教育大数据研究院出品,如需转载请注明来源。

    相关文章

      网友评论

          本文标题:尚硅谷大数据技术之Oozie

          本文链接:https://www.haomeiwen.com/subject/idykkqtx.html