大数据面试 | 07 从这5个方面入手，回答好Hadoop 优

大数据面试 | 07 从这5个方面入手，回答好Hadoop 优

作者: 彬彬有李学数据 | 来源:发表于2020-03-02 00:37 被阅读0次

大数据面试 | 07 从这5个方面入手，回答好Hadoop 优
java 后端深入
面试时的小问题，避开坑公司
千亿级的大数据难题，优酷工程师怎么解决？
千亿级的数据难题，优酷工程师怎么解决？
面试前你不得不知道的事情
幸福的五大元素
IOS面试题
提取产品亮点，从这5个方面入手
好习惯养成从这几个方面入手

Hadoop 优化（记住6条-10条即可）

1)数据输入小文件处理:

合并小文件:对小文件进行归档(har)、自定义 inputformat 将小文件存储成 sequenceFile 文件。
采用 ConbinFileInputFormat 来作为输入，解决输入端大量小文件场景。
对于大量小文件 Job，可以开启 JVM 重用。

2)map 阶段

增大环形缓冲区大小。由 100m 扩大到 200m
增大环形缓冲区溢写的比例。由 80%扩大到 90%
减少对溢写文件的 merge 次数。
不影响实际业务的前提下，采用 combiner 提前合并，减少 I/O。

3)reduce 阶段

合理设置 map 和 reduce 数:两个都不能设置太少，也不能设置太多。太少，会导致 task 等待，延长处理时间;太多，会导致 map、reduce 任务间竞争资源，造成处理超时等错误。
设置 map、reduce 共存:调整 slowstart.completedmaps 参数，使 map 运行到一定程度后，reduce 也开始运行，减少 reduce 的等待时间。
规避使用 reduce，因为 Reduce 在用于连接数据集的时候将会产生大量的网络消耗
增加每个 reduce 去 map 中拿数据的并行数
集群性能可以的前提下，增大 reduce 端存储数据内存的大小。

4)IO 传输

采用数据压缩的方式，减少网络 IO 的的时间。安装 Snappy 和 LZOP 压缩编码器。
使用 SequenceFile 二进制文件

5)整体

MapTask 默认内存大小为 1G，可以增加 MapTask 内存大小为 4-5g
ReduceTask 默认内存大小为 1G，可以增加 ReduceTask 内存大小为 4-5g
可以增加 MapTask 的 cpu 核数，增加 ReduceTask 的 cpu 核数
增加每个 container 的 cpu 核数和内存大小
调整每个 Map Task 和 Reduce Task 最大重试次数

相关文章

大数据面试 | 07 从这5个方面入手，回答好Hadoop 优
Hadoop 优化（记住6条-10条即可） 1)数据输入小文件处理: 合并小文件:对小文件进行归档(har)、自...
java 后端深入
一. 性能调优几乎每个JAVA后端开发程序员，都会在面试时碰到诸如如何性能调优的问题，如何回答好这个问题，不仅仅...
面试时的小问题，避开坑公司
面试到最后的环节，一般这时候面试官都会问：你有什么想问我的？总结这几年工作中的一些采坑经验，可以从这几个方面入手，...
千亿级的大数据难题，优酷工程师怎么解决？
优酷一天的日志量会达到千亿级别，面对如此大的数据样本，2017年5月，优酷完成了从Hadoop迁移到阿里云MaxC...
千亿级的数据难题，优酷工程师怎么解决？
阿里妹导读：优酷一天的日志量会达到千亿级别，面对如此大的数据样本，2017年5月，优酷完成了从Hadoop迁移到阿...
面试前你不得不知道的事情
你可以用这些问题来检查自己是否对面试公司熟悉，也可以从这些方面入手进行了解。 · 这是家大公司还是小公司？ · 它...
幸福的五大元素
幸福的五大元素perma，积极，专注，关系，意义和成就。那么，如何拥有长久的幸福？其实也是从这五个方面入手的...
IOS面试题
iOS面试小贴士 ———————————————回答好下面的足够了------------------------...
提取产品亮点，从这5个方面入手
提取产品的亮点不仅能从众多的竞争对手脱颖而出，还能迎接消费者。不过，许多人产品的亮点不知道怎么打造，宣传起来达不...
好习惯养成从这几个方面入手
学习差距的根源在习惯！好习惯成就优秀人生。那么，好习惯养成从以下几个方面入手: 1.自学预习的习惯自学是获取...

网友评论

本文标题：大数据面试 | 07 从这5个方面入手，回答好Hadoop 优

本文链接：https://www.haomeiwen.com/subject/uhyxhhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

大数据，机器学习，人工智能

大数据爬虫Python AI Sql

玩转大数据

热点阅读

大数据，机器学习，人工智能

大数据爬虫Python AI Sql

玩转大数据

大数据

关于我们|服务条款|联系我们|大数据面试 | 07 从这5个方面入手，回答好Hadoop 优|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！