资源使用情况包括:
1.任务运行使用的存储和计算资源
2.文件存储和访问情况
3.Hive表访问情况
优化资源使用:
1.任务诊断分析找出资源使用不合理的任务参数优化或实现重构
2.队列资源分析队列资源饱和度扩容/缩容、重排任务执行时间点或优先级
3.文件存储分析存储分布(大小、数量)小文件发现
4.文件操作冷热文件发现数据治理(删除冷文件或迁移冷数据)
问题排查:
1.实时发现核心服务指标异常和日志异常
2.实时发现hdfs操作不合理(操作量不合理、满操作)
3.队列资源使用异常
4.任务指标异常
1.Yarn任务分析(MR、Spark、Hive)
任务生命周期内进程占用资源分析
任务汇总指标信息
诊断分析(判断资源消耗是否合理)
关联任务
2.服务指标分析
Yarn队列资源使用分析
NN和RM服务指标分析
DN、NM服务指标分析
3.服务日志分析
Kyuubi服务日志分析
NN服务日志分析
RM服务日志分析
HiveServer和HiveMetastore服务日志分析
4.文件分析
HDFS文件基本信息分析(大小、子文件和子目录数、配额等信息)
HDFS文件操作实时分析(操作类型、用户、IP按分钟粒度聚合)已完成
HDFS文件操作离线分析(分析每个文件的频度、按月汇总)
5.Hive表热度分析
HiveQL访问的Hive表热度
SparkSQL访问的Hive表热度
ImpalaSQL访问的Hive表热度
6.异常报警
各类型报警规则定义与实现
网友评论