美文网首页
Hadoop2.0 | Tez绪

Hadoop2.0 | Tez绪

作者: icebreakeros | 来源:发表于2019-07-06 12:37 被阅读0次

    TezApache开源的支持DAG作业的计算框架
    直接源于MapReduce框架,核心思想是将MapReduce两个操作进一步拆分
    Map被拆分成InputProcessorSortMergeOutput
    Reduce被拆分成InputShuffleSortMergeProcessorOutput

    Tez数据处理引擎

    Tez数据处理引擎实现了一些常见的组件
    Tez数据处理引擎的基础是Sort(排序)和Shuffle(混洗)

    Tez提供了多种InputOutputTaskSort的实现
    Input实现:LocalMergedInput(多个文件本地合并后作为输入)、ShuffledMergedInput(远程拷贝数据且合并后作为输入)
    Output实现:InMemorySortedOutput(内存排序后输出)、LocalOnFileSorterOutput(本地磁盘排序后输出)、OnFileSortedOutput(磁盘排序后输出)
    Task实现:RunTimeTask
    Sort实现:DefaultSorter(本地数据排序)、InMemoryShuffleSorter(远程拷贝数据并排序)

    Tez ApplicationMaster

    Tez ApplicationMaster直接源于MapReduceApplicationMaster,重用了大部分机制和代码

    功能
    数据切分和作业分解
    任务调度
    ResourceManager进行通信,为DAG作业申请资源
    NodeManager进行通信,启动DAG作业中的任务
    监控DAG作业的运行过程,确保它快速运行结束

    每个DAGAppMaster负责管理一个DAG作业
    DAGAppMaster优先为那些不依赖任何顶点的任务申请资源
    DAG中的一个顶点由一定数目的任务组成
    一旦一个顶点中所有任务运行完成,则认为该顶点运行结束

    相关文章

      网友评论

          本文标题:Hadoop2.0 | Tez绪

          本文链接:https://www.haomeiwen.com/subject/ptfphctx.html