1.reduce join缺点:由于通常情况下,reduce 的数量很少,所以reduce端的处理压力比较大,map节点的运算负载很低,资源利用率不高。并且在reduce阶段极易产生数据倾斜。
2.map join 适用于一张表十分小,一张表很大的场景。
3.在实际开发中,经常有只开map端关闭reduce端的情况,这样做效率高,只要业务能在map阶段完成。方法是job.setNumReduceTasks(0);让reducetask的数量为0.
4.使用压缩技术的基本原则,运算密集型的job,少用压缩,密集型的job,多用压缩。可以在任意的mapreduce阶段使用压缩。
5.各种压缩方式的适用场景。Lzo是使用中最流行的压缩方式。
6.yarn使hadoop2.x 产生的,YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成
8.Hadoop作业调度器主要有三种:FIFO、Capacity Scheduler和Fair Scheduler。
9.不能开启推测任务的条件:(1)任务间存在严重的负载倾斜(2)特殊任务,比如向数据库中写数据
10. image.png
11. image.png
12.mapreduce 的优化主要从:数据输入,Map阶段,reduce阶段,IO传输,数据倾斜和常用的调优参数。
13.mapreduce优化:
image.png
image.png
image.png
image.png
image.png
image.png
image.png
网友评论