美文网首页
重点关注 ti

重点关注 ti

作者: 博弈史密斯 | 来源:发表于2018-09-18 21:41 被阅读0次
    17.reduce后输出的数据量有多大?(重点!!!)

    并不是想知道确切的数据量有多大这个,而是想问你,MR的执行机制,开发完程序,有没有认真评估程序运行效率

    1)用于处理redcue任务的资源情况,如果是MRV1的话,分了多少资源给map,多少个reduce

    如果是MRV2的话,可以提一下,集群有分了多少内存、CPU给yarn做计算 。

    2)结合实际应用场景回答,输入数据有多大,大约多少条记录,做了哪些逻辑操作,输出的时候有多少条记录,执行了多久,reduce执行时候的数据有没有倾斜等

    3)再提一下,针对mapReduce做了哪几点优化,速度提升了多久,列举1,2个优化点就可以

    18.你的项目提交到job的时候数据量有多大?(重点!!!)

    答:1)回答出数据是什么格式,有没有采用什么压缩,采用了压缩的话,压缩比大概是多少;2)文件大概多大:大概起了多少个map,起了多少个reduce,map阶段读取了多少数据,reduce阶段读取了多少数据,程序大约执行了多久,3)集群什么规模,集群有多少节点,多少内存,多少CPU核数等。把这些点回答进去,而不是给个数字了事。

    19.你们提交的job任务大概有多少个?这些job执行完大概用多少时间?

    还是考察你开发完程序有没有认真观察过程序的运行,有没有评估程序运行的效率

    20.你们业务数据量多大?有多少行数据?

    这个也是看你们有没有实际的经验,对于没有实战的同学,请把回答的侧重点放在MR的运行机制上面,

    MR运行效率方面,以及如何优化MR程序(看别人的优化demo,然后在虚拟机上拿demo做一下测试)。

    相关文章

      网友评论

          本文标题:重点关注 ti

          本文链接:https://www.haomeiwen.com/subject/ijcmjftx.html