美文网首页
mr内存不足问题解决

mr内存不足问题解决

作者: 后知不觉1 | 来源:发表于2024-06-04 13:44 被阅读0次

1、yarn的container模型说明

image.png

container的内存分为两部分

  • jvm进程的内存大小
  • container启动工作的内存大小,一般占用15% container

container 启动是由appmaster启动,接收appmaster的管理

2、mr 计算过程

image.png

map阶段

  • 一个大文件分成多个小文件块输入到 map中
  • map将文件块读取排好序生成小文件
  • 多次合并小文件,最终生成有序文件,并根据reduce的个数分区

shuffle 阶段

  • map的container, 启动服务于reduce取数的线程
  • reduce 启动拉取数据线程拉取数据

reduce阶段

  • 读取多个map归属于同一个reduce分区的数据
  • 读取达到缓存池大小时生成小文件
  • 多次合并小文件并排序,最终生成一个有序的大文件上传到hdfs

备注:图中缺失reduce的spill小文件阶段

2.1、map的参数
mapreduce.task.io.sort.mb       用于map输出排序的内存大小  100
mapreduce.map.sort.spill.percent        开始spill的缓冲池阈值    0.8
mapreduce.task.io.sort.factor           合并文件数最大值,与reduce共用 10
mapreduce.map.output.compress       输出是否压缩   false
mapreduce.map.output.compress.codec        压缩算法类        DefaultCodec压缩算法
mapreduce.shuffle.max.threads     用于reduce提取结果的线程数量   0 设置为0表示默认值为可用处理器数量的2倍
2.3、reduce的参数
mapreduce.reduce.shuffle.parallelcopies  5 提取map输出的copier线程数 
mapreduce.task.io.sort.factor  10   合并文件数最大值,与map共用
mapreduce.reduce.shuffle.input.buffer.percent  0.70 copy阶段用于保存map输出的堆内存比例
mapreduce.reduce.shuffle.merge.percent   0.66   开始spill文件的缓冲池比例阈值
mapreduce.reduce.merge.inmem.threshold  1000 开始spill的reduce输出文件数阈值,小于等于0表示没有阈值,此时只由缓冲池比例来控制
mapreduce.reduce.input.buffer.percent  0.0 reduce函数开始运行时,内存中的map输出所占的堆内存比例不得高于这个值,默认情况内存都用于reduce函数,也就是map输出都写入到磁盘

3、内存溢出

hive在执行mr任务时,内存溢出分为三中情况

  • map阶段
  • shuffle阶段
  • reduce阶段

3.1、map阶段

mapjoin 分3个阶段 参考 https://www.cnblogs.com/yeyuzhuanjia/p/17921752.html

  • 读取小表的数据生成hashtable文件
  • 上传到hdfs目录
  • 启动map任务,通过map与hastable进行计算

生成hashtable时hive会启动本地map , 这时是占用hive的内存。这一般不会出现内存不足的情况;在map 与hashtable进行运算时会出现内存不足的情况

Starting task [Stage-4:MAPREDLOCAL] in serial mode
解决

方法一 、关闭mapjoin使用common join即在reduce端进行join

set hive.auto.convert.join=false;

方法二、调大mr的内存

set mapreduce.map.memory.mb=4096;
set mapreduce.map.java.opts=-Xmx3900m;
set mapreduce.reduce.memory.mb=4096;
set mapreduce.reduce.java.opts=-Xmx3900m;

3.2、shuffle阶段

可以调整mr的参数,也可无脑同上增大内存

3.3、reduce 阶段

方法一、 调整mr参数

set hive.exec.reducers.bytes.per.reducer=30000000  #调整每个reduce处理数据大小,从而增大reduce数进行分散

方法二、也可无脑同上增大内存

常见问题

1、beeline 执行查询获取数据内存不足

beeline默认启动内存128M,查询时返回结果集过大,导致beeline无法承载导致。

    org.apache.thrift.TException: Error in calling method FetchResults
            at org.apache.hive.jdbc.HiveConnection$SynchronizedHandler.invoke(HiveConnection.java:1421)
            .....
    Caused by: java.lang.OutOfMemoryError: GC overhead limit exceeded
            at java.util.Arrays.copyOf(Arrays.java:3332)
            at java.lang.StringCoding.safeTrim(StringCoding.java:89)

解决

export HIVE_OPTS=-Xmx1024M

相关文章

  • 我的swift

    1、处理内存不足的接口:didReceiveMemoryWarning //处理内存不足的接口:内存不足时,调用到...

  • 大数据运维问题记录(二)

    问题描述:一个项目组的同事反应他们的集群hive突然出现了问题,走mr就报错 问题解决:首先问了下他们最近做了些什...

  • Message from debugger: Terminate

    内存不足

  • Mr Mr

    So I 'm tired,tired about you Come to kill me

  • jenkins 启动mvn项目报错:ERROR: Maven J

    机器内存不足导致!!!

  • 蓝雪儿感恩日记#第103天

    今日小确幸 1、近期最bug的一件事就是内存不足。 微信收藏内存不足,手机内存不足,印象笔记上传空间不足,硬盘内存...

  • 共你哦你哦

    Mr 你你哦哦哦Mr 你你哦 Mr 你你哦我

  • 内存不足

    俗世占用人间三分之二内存 系统发出警告,将异常感染病毒 需要灵魂360软件清理 卸载贫血的月亮,剔除遍地人的乡愁病...

  • 内存不足

    这两天手机反应特别慢,不时收到系统的提醒:内存不足,内存不足。 然后电脑连接手机,备份整理。不看不知道,一看吓一跳...

  • 内存不足

    我一直渴望拥有一个Kindle,可我明白不出两周,我也会出现像手机里面的Kindle app以及各种阅读软件那样,...

网友评论

      本文标题:mr内存不足问题解决

      本文链接:https://www.haomeiwen.com/subject/fwxrqjtx.html