hive map数的控制

hive map数的控制

作者: 安申 | 来源:发表于2022-07-03 17:03 被阅读0次

Hive的性能优化以及数据倾斜
hive map数的控制
Hive SQL控制map数和reduce数
Hive优化
hive集合类型
hive如何调整map数和reduce数
Hadoop(二十七)HIVE的高级应用之推荐系统
hive map数的计算-combinehiveinputfor
hive如何调整map和reduce的数量
hive map数的计算-hiveinputformat

背景：最近执行一个 select count(*)，发现mapreduce计算分片数很慢，且分片数的大小对不上

确定 hive 默认开启 map 任务前进行合并小文件的设置：hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat
确认 hdfs 的 block 大小为： set dfs.blocksize=128M
确认建表存储格式指定为 textfile

SET hive.exec.compress.output=true; 
SET mapred.output.compress=true; 
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

再往里插入数据，hdfs上生成单文件500M的.gz文件

数据的最小分割单元，单位(B)：set mapred.min.split.size=1
数据的最大分割单元，单位(B)：set mapred.max.split.size=256000000
当未开启 map 端合并小文件且为使用压缩表，分片规则:

minSize=mapred.min.split.size;
maxSize=mapred.max.split.size;
blockSize=dfs.blocksize;
splitSize=Math.max(minSize,Math.min(maxSize, blockSize))

当 开启 map 端合并小文件后，splitSize=maxSize
当 涉及到压缩后，情况又有变；gzip压缩文件不支持分片

如果一张表开启 map 前合并小文件，且为gzip压缩
现其 hdfs 上存在10个文件，每个文件大小 500M
mapred.max.split.size=256000000
最终 number of splits:10，因为gzip压缩不支持分片，所以一个文件不可以切分

相关文章

Hive的性能优化以及数据倾斜
hive性能优化一、Map阶段的优化：（控制hive任务中的map数，确定合适的map数，以及每个map处理合...
hive map数的控制
背景：最近执行一个 select count(*)，发现mapreduce计算分片数很慢，且分片数的大小对不上确...
Hive SQL控制map数和reduce数
控制Map数的个数读取小文件较多，那么则需要在map端进行小文件合并，参数设置如下： -- 设置输入文件格式 s...
Hive优化
Hive HQL优化 Hive优化目标在有限的资源下，执行效率更高常见问题数据倾斜map数设置reduce数设置...
hive集合类型
hive集合类型集合类型主要包括：array，map，struct等，hive的特性支持集合类型，这特性是关系型数...
hive如何调整map数和reduce数
一般情况下，启动一个hive任务时hive会计算这个任务需要用到的map和reduce数量，通常map数和redu...
Hadoop(二十七)HIVE的高级应用之推荐系统
一.HIVE的基础知识 Hive复合数据类型:map– 创建map:map、str_to_map– 取key、va...
hive map数的计算-combinehiveinputfor
对hive输入格式设置为CombineHiveInputFormat的进行分析map数是如何计算的。 set hi...
hive如何调整map和reduce的数量
hive的map数量和reduce数量控制参考文档： https://blog.csdn.net/may_fly...
hive map数的计算-hiveinputformat
hive.input.format指定为org.apache.hadoop.hive.ql.io.HiveInpu...

网友评论

本文标题：hive map数的控制

本文链接：https://www.haomeiwen.com/subject/crblbrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|hive map数的控制|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！