美文网首页
hive合并小文件

hive合并小文件

作者: 早点起床晒太阳 | 来源:发表于2020-12-09 21:07 被阅读0次

    参考资料:https://blog.csdn.net/lalaguozhe/article/details/9053645

    我们这边改为底层数据改成hive的parquet表,需要我们这边弄下优化小文件相关,特意总结下

    最终参数

    SET parquet.compression = snappy; //设置压缩 专门针对于stored as parquet的情况
    set hive.merge.mapfiles=true; //map-only 时合并
    set hive.merge.mapredfiles = true; //mapreduce 时合并
    //map端合并
    set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
    set mapred.max.split.size=256000000;
    //reduce端合并
    set hive.merge.size.per.task=256000000;
    set hive.merge.smallfiles.avgsize=80000000;

    相关文章

      网友评论

          本文标题:hive合并小文件

          本文链接:https://www.haomeiwen.com/subject/kfjkgktx.html