TEZ工具

作者: clive0x | 来源:发表于2019-02-20 21:30 被阅读0次

TEZ比MapReduce框架快是不争的事实,官网一直没有说怎么快。

下面摘录官网描述

Empowering end users by: 

Expressive dataflow definition APIs

Flexible Input-Processor-Output runtime model

Data type agnostic

Simplifying deployment

Execution Performance

Performance gains over Map Reduce

Optimal resource management

Plan reconfiguration at runtime

Dynamic physical data flow decisions

两方面:

1是计算逻辑层,使用DAG描述,比Map/Reduce(当然包括Combined/Shuffle/Sort过程)描述更直接。

2是物理执行计划,比MapReduce Job/Tasks描述更直接。

官网没详细描述,也懒得看源码,只是从官网图中了解到,可以很大程序减少计算过程中中间结果,提升速度。

从右边看确实是可以减少中间数据。

这玩意也有很玖没更新了,从0.7.1版本开始,需要用npm编译安装,妈蛋加了不少前端东西,在中国npm被墙,慢,几乎不可能。编译过0.9.1,太TMD复杂了。

有机会看到一遍文章,才知道TEZ的来龙去脉,属于Google 内部Flume的山寨, 注:非Apache Flume,原来自己做个一个ETL调度系统,里面有很多任务重复,如job1 对表加字段,job 2对表字段做转化,job 3统计 job1 和job2 的结果,三个job,数据会落磁三次。TEZ目前用在Hive生成的Jobs,确实可以减少中间落盘次数。 ETL调度系统进化方向也找到了 。

https://infoq.cn/article/the-evolution-of-large-scale-data-processing

相关文章

网友评论

      本文标题:TEZ工具

      本文链接:https://www.haomeiwen.com/subject/gupkyqtx.html