美文网首页
部分spark参数解析

部分spark参数解析

作者: cheng_e819 | 来源:发表于2019-11-22 15:06 被阅读0次
配置 说明
spark.sql.parquet.adaptiveFileSplit true 不知道
spark.sql.adaptive.hashJoin.enabled true 标准的shuffle join 自动转成hashjoin比如broadcast join 或者mapjoin
spark.executor.cores 3 每个executor分配多少个cpu
spark.datasource.splits.max 忘了 不知道
spark.dynamicAllocation.maxExecutors 5000 这事涉及到spark的动态资源分配
Dynamic Resource Allocation
这就是分配的做大executor数
spark.dynamicAllocation.minExecutors 3 同上, 最小executor数
spark.executor.memory 4096 每个executor 分配的内存, executor内存管理
spark.executor.memoryOverhead 3072 堆外内存, spark on yarn内存分配
问题,推外内存干嘛用,以及几个内存配置如何相互影响
spark.memory.fraction 0.7 spark.memory.fraction 代表整体JVM堆内存中M的百分比(默认0.6)。剩余的空间(40%)是为用户数据结构、Spark内部metadata预留的,并在稀疏使用和异常大记录的情况下避免OOM错误。Spark调优(数据序列化和内存调优)
spark.script.transformation.exit.timeout -1 看着像是写脚本退出超时的时间
spark.shuffle.accurateBlockRecordThreshold 500000 不知道
spark.shuffle.accurateBlockThreshold 4000000 以字节为单位的阈值,高于该阈值可准确记录HighlyCompressedMapStatus中随机块的大小。这有助于通过避免在获取shuffle块时低估shuffle块大小来防止OOMspark-参数配置总结
spark.sql.adaptive.maxNumPostShufflePartitions 1000 executor自适应,上限不超过1000
spark.sql.adaptive.shuffle.targetPostShuffleInputSize 52428800 如果两个reducer数据量之和小于这个数,合并reducer
spark.sql.adaptive.shuffle.targetPostShuffleRowCount 5000000 类似上面,行数限制
spark.sql.adaptive.skewedJoin.enabled true 数据倾斜
spark.sql.adaptive.skewedPartitionFactor 3 倾斜因子,如果一个Partition的大小大于spark.sql.adaptive.skewedPartitionSizeThreshold的同时大于各Partition大小中位数与该因子的乘积,或者行数大于spark.sql.adaptive.skewedPartitionRowspark.sql.adaptive.skewedPartitionRowCountThreshold的同时大于各Partition行数中位数与该因子的乘积,则它会被视倾斜的Partition,Spark Adaptive Execution优化
spark.sql.adaptive.skewedPartitionMaxSplits 6 控制处理一个倾斜Partition的Task个数上限
spark.sql.adaptive.skewedPartitionRowCountThreshold 5000000;
spark.sql.adaptive.skewedPartitionSizeThreshold 52428800;
spark.sql.adaptiveHashJoinThreshold 52428800 某个表小于这个值启动hashjoin
spark.sql.files.maxPartitionBytes 268435456 读取文件时打包到单个分区的最大字节数。
spark.sql.inferAndPushdownPredicate.enabled true 谓词下推,就是外部的where放到子查询里面做Hive中的Predicate Pushdown Rules

相关文章

  • 部分spark参数解析

    配置值说明spark.sql.parquet.adaptiveFileSplittrue不知道spark.sql....

  • spark提交参数解析

    上一节学习了Spark源码的编译方法,这一节我们跟踪一下spark-shell的启动. spark-shell是s...

  • pycharm 开发pyspark

    下载spark包 配置参数 配置spark参数vim ${spark_dir}/conf/spark-env.sh...

  • quartz部分参数解析

    前提 最近要实现一个每隔几分钟就监控rpc调用是否存活的系统,考虑到监控的rpc数量众多,因此将每个监控作为任务,...

  • spark submit常用参数及优化

    1.spark submit 基本格式举例: 2.spark submit 参数详解: 参数参数说明示例--mas...

  • Spark配置参数详解

    Spark配置参数详解 以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuratio...

  • [spark streaming] DStream 和 DStr

    看 spark streaming 源码解析之前最好先了解spark core的内容。 前言 Spark Stre...

  • Spark编程讲解

    Spark严重依赖传递函数类型的参数,即 在spark中,transformation 和 action接收的参数...

  • Spark参数详解 一(Spark1.6)

    Spark参数详解 (Spark1.6) 参考文档:Spark官网在Spark的web UI在“Environme...

  • Spark内核机制解析及性能调优

    Spark内核机制解析及性能调优致力于Spark内核的深入解析,带领读者掌握Spark内核的各个关键知识点。具体内...

网友评论

      本文标题:部分spark参数解析

      本文链接:https://www.haomeiwen.com/subject/vliaictx.html