美文网首页
2020-12-16

2020-12-16

作者: FrankXu0808 | 来源:发表于2020-12-16 19:31 被阅读0次

    1.reduce join缺点:由于通常情况下,reduce 的数量很少,所以reduce端的处理压力比较大,map节点的运算负载很低,资源利用率不高。并且在reduce阶段极易产生数据倾斜。
    2.map join 适用于一张表十分小,一张表很大的场景。
    3.在实际开发中,经常有只开map端关闭reduce端的情况,这样做效率高,只要业务能在map阶段完成。方法是job.setNumReduceTasks(0);让reducetask的数量为0.
    4.使用压缩技术的基本原则,运算密集型的job,少用压缩,密集型的job,多用压缩。可以在任意的mapreduce阶段使用压缩。
    5.各种压缩方式的适用场景。Lzo是使用中最流行的压缩方式。
    6.yarn使hadoop2.x 产生的,YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成

    7. image.png
    8.Hadoop作业调度器主要有三种:FIFO、Capacity Scheduler和Fair Scheduler。
    9.不能开启推测任务的条件:(1)任务间存在严重的负载倾斜(2)特殊任务,比如向数据库中写数据
    10. image.png
    11. image.png
    12.mapreduce 的优化主要从:数据输入,Map阶段,reduce阶段,IO传输,数据倾斜和常用的调优参数。

    13.mapreduce优化:


    image.png
    image.png
    image.png
    image.png
    image.png
    image.png
    image.png

    相关文章

      网友评论

          本文标题:2020-12-16

          本文链接:https://www.haomeiwen.com/subject/xplngktx.html