使用 jvm-profiler 分析 spark 内存使用

使用 jvm-profiler 分析 spark 内存使用

作者: breeze_lsw | 来源:发表于2018-10-27 16:01 被阅读5次

使用 jvm-profiler 分析 spark 内存使用
下周任务
Spark MLlib
spark 内存管理
Flink JobManager | TaskManager内存
Spark MLlib 做 K-means 聚类分析
spark内存管理笔记摘抄
Spark Shuffle
Spark 内存管理
Android内存分析与监控

背景

在生产环境中，为了提高任务提交的响应速度，我们研发了类似 Spark Jobserver 的服务，各种类型的 spark 任务复用已经启动的 Spark Application，避免了 sparkContext 初始化冷启动的过程。

可复用Spark服务的内存是固定的，因此又开放了用户自定义 Executor 内存的权限，用户为了避免自己的任务因内存不足而失败，往往会把内存设置的很大，从而带来了内存滥用的问题。

jvm-profiler

一般来说监控 spark 内存有2种方式

通过 Spark ListenerBus 获取 Executor 内部的内存使用情况，现在能获取的相关信息还比较少，在 https://github.com/apache/spark/pull/21221 合进来后就能采集到executor 内存各个逻辑分区的使用情况。
通过 Spark Metrics 将 JVM 信息发送到指定的 sink，用户也可以自定义 Sink 比如发送到 kafka/Redis。

Uber 最近开源了 jvm-profiler，采集分布式JVM应用信息，可以用于 debug CPU/mem/io 或者方法调用的时间等。比如调整Spark JVM 内存大小，监控 HDFS Namenode RPC 延时，分析数据血缘关系。

应用于 Spark 比较简单
每5S采集一次JVM信息，发送到 kafka profiler_CpuAndMemory topic

hdfs dfs -put jvm-profiler-0.0.9.jar hdfs://hdfs_url/lib/jvm-profiler-0.0.9.jar
--conf spark.jars=hdfs://hdfs_url/lib/jvm-profiler-0.0.9.jar
--conf spark.executor.extraJavaOptions=-javaagent:jvm-profiler-0.0.9.jar=reporter=com.uber.profiling.reporters.KafkaOutputReporter,metricInterval=5000,brokerList=brokerhost:9092,topicPrefix=profiler_

消费后存入HDFS用于分析。

分析

hive 表结构

app_id	process_id	role	heap_mem_max	heap_mem_used	process_cpu_load	epoch_millis

对用户自定义内存的任务进行分析

用户自定义内存调度任务，75%的任务内存使用率低于80%，可以进行优化。

用户自定义内存调度任务

用户自定义内存开发任务，45%的任务内存使用率低于20%，用户存在不良使用习惯。

用户自定义内存开发任务

总结

通过采集 jvm 的最大使用值和设定值，可以解决下述问题。

内存滥用
监控应用内存使用趋势，防止数据增长导致内存不足
Spark Executor 默认内存设置不合理

根据应用的使用预计内存减少情况

executor 默认内存减少10%，平均每个任务能释放 60G 内存
自定义内存调度任务利用率提高到 70%，平均每个任务能释放 450G 内存
自定义内存开发任务利用率提高到 70%，平均每个任务能释放 550G 内存

参考

JVM Profiler: An Open Source Tool for Tracing Distributed JVM Applications at Scale

相关文章

使用 jvm-profiler 分析 spark 内存使用
背景在生产环境中，为了提高任务提交的响应速度，我们研发了类似 Spark Jobserver 的服务，各种类型的...
下周任务
1.spark netty源码分析 2.spark 对外内存使用 3.spark shuffle流程分析 4.pr...
Spark MLlib
Spark MLlib Spark简介基于内存设计，比一般的数据分析框架有着更高的处理性能，使用Scala函数式...
spark 内存管理
内容目录 JVM 內存使用架构剖析 Spark 1.6.x以前版本内存管理 Spark on Yarn 计算内存使...
Flink JobManager | TaskManager内存
Flink内存模型分析 JobManager内存模型 TaskManager内存模型内存模型分析 Flink使用...
Spark MLlib 做 K-means 聚类分析
Spark 实战，第 4 部分: 使用 Spark MLlib 做 K-means 聚类分析https://www...
spark内存管理笔记摘抄
spark内存使用大小管理 MemoryManager 的具体实现上，Spark 1.6 之后默认为统一管理（Un...
Spark Shuffle
Spark 内存管理和消费模型 Spark Shuffle 过程 Spark Shuffle OOM 可能性分析 ...
Spark 内存管理
Spark是基于内存的计算引擎，就是说它高效的使用了分布式节点上的内存资源，尽可能多的使用内存，而不是将数据写入磁...
Android内存分析与监控
1.查看GC日志 2,使用Profiler分析内存 3,使用LeakCanary监控内存泄漏 LeakCanary...

网友评论

Spark优化与实践

本文标题：使用 jvm-profiler 分析 spark 内存使用

本文链接：https://www.haomeiwen.com/subject/mbydtqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

Spark优化与实践

热点阅读

Spark优化与实践

关于我们|服务条款|联系我们|使用 jvm-profiler 分析 spark 内存使用|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！