美文网首页
mr内存不足问题解决

mr内存不足问题解决

作者: 后知不觉1 | 来源:发表于2024-06-04 13:44 被阅读0次

    1、yarn的container模型说明

    image.png

    container的内存分为两部分

    • jvm进程的内存大小
    • container启动工作的内存大小,一般占用15% container

    container 启动是由appmaster启动,接收appmaster的管理

    2、mr 计算过程

    image.png

    map阶段

    • 一个大文件分成多个小文件块输入到 map中
    • map将文件块读取排好序生成小文件
    • 多次合并小文件,最终生成有序文件,并根据reduce的个数分区

    shuffle 阶段

    • map的container, 启动服务于reduce取数的线程
    • reduce 启动拉取数据线程拉取数据

    reduce阶段

    • 读取多个map归属于同一个reduce分区的数据
    • 读取达到缓存池大小时生成小文件
    • 多次合并小文件并排序,最终生成一个有序的大文件上传到hdfs

    备注:图中缺失reduce的spill小文件阶段

    2.1、map的参数
    mapreduce.task.io.sort.mb       用于map输出排序的内存大小  100
    mapreduce.map.sort.spill.percent        开始spill的缓冲池阈值    0.8
    mapreduce.task.io.sort.factor           合并文件数最大值,与reduce共用 10
    mapreduce.map.output.compress       输出是否压缩   false
    mapreduce.map.output.compress.codec        压缩算法类        DefaultCodec压缩算法
    mapreduce.shuffle.max.threads     用于reduce提取结果的线程数量   0 设置为0表示默认值为可用处理器数量的2倍
    
    2.3、reduce的参数
    mapreduce.reduce.shuffle.parallelcopies  5 提取map输出的copier线程数 
    mapreduce.task.io.sort.factor  10   合并文件数最大值,与map共用
    mapreduce.reduce.shuffle.input.buffer.percent  0.70 copy阶段用于保存map输出的堆内存比例
    mapreduce.reduce.shuffle.merge.percent   0.66   开始spill文件的缓冲池比例阈值
    mapreduce.reduce.merge.inmem.threshold  1000 开始spill的reduce输出文件数阈值,小于等于0表示没有阈值,此时只由缓冲池比例来控制
    mapreduce.reduce.input.buffer.percent  0.0 reduce函数开始运行时,内存中的map输出所占的堆内存比例不得高于这个值,默认情况内存都用于reduce函数,也就是map输出都写入到磁盘
    

    3、内存溢出

    hive在执行mr任务时,内存溢出分为三中情况

    • map阶段
    • shuffle阶段
    • reduce阶段

    3.1、map阶段

    mapjoin 分3个阶段 参考 https://www.cnblogs.com/yeyuzhuanjia/p/17921752.html

    • 读取小表的数据生成hashtable文件
    • 上传到hdfs目录
    • 启动map任务,通过map与hastable进行计算

    生成hashtable时hive会启动本地map , 这时是占用hive的内存。这一般不会出现内存不足的情况;在map 与hashtable进行运算时会出现内存不足的情况

    Starting task [Stage-4:MAPREDLOCAL] in serial mode
    
    解决

    方法一 、关闭mapjoin使用common join即在reduce端进行join

    set hive.auto.convert.join=false;
    

    方法二、调大mr的内存

    set mapreduce.map.memory.mb=4096;
    set mapreduce.map.java.opts=-Xmx3900m;
    set mapreduce.reduce.memory.mb=4096;
    set mapreduce.reduce.java.opts=-Xmx3900m;
    

    3.2、shuffle阶段

    可以调整mr的参数,也可无脑同上增大内存

    3.3、reduce 阶段

    方法一、 调整mr参数

    set hive.exec.reducers.bytes.per.reducer=30000000  #调整每个reduce处理数据大小,从而增大reduce数进行分散
    

    方法二、也可无脑同上增大内存

    常见问题

    1、beeline 执行查询获取数据内存不足

    beeline默认启动内存128M,查询时返回结果集过大,导致beeline无法承载导致。

        org.apache.thrift.TException: Error in calling method FetchResults
                at org.apache.hive.jdbc.HiveConnection$SynchronizedHandler.invoke(HiveConnection.java:1421)
                .....
        Caused by: java.lang.OutOfMemoryError: GC overhead limit exceeded
                at java.util.Arrays.copyOf(Arrays.java:3332)
                at java.lang.StringCoding.safeTrim(StringCoding.java:89)
    

    解决

    export HIVE_OPTS=-Xmx1024M
    

    相关文章

      网友评论

          本文标题:mr内存不足问题解决

          本文链接:https://www.haomeiwen.com/subject/fwxrqjtx.html