美文网首页大数据运维程序员
大数据运维问题记录(二)

大数据运维问题记录(二)

作者: 火车飞侠 | 来源:发表于2016-07-13 18:34 被阅读117次

问题描述:一个项目组的同事反应他们的集群hive突然出现了问题,走mr就报错

问题解决:首先问了下他们最近做了些什么操作,说是最近在lib下复制了一些jar包,后来就出现这个问题,把复制过来的jar包删除了也没用,发了些日志也只是hive报出来的表面现象,所以还是远程协助进行解决,打开resource manager查看到出错的日志如下

Application application_1464140393518_0021 failed 2 times due to Error launching appattempt_1464140393518_0021_000002. Got exception: org.apache.hadoop.yarn.exceptions.YarnException: Unauthorized request to start container.

This token is expired. current time is 1468393291214 found 1468392500369

at sun.reflect.GeneratedConstructorAccessor36.newInstance(Unknown Source)

...

大概意思是在创建container的时候没有权限,token过期了,最重要的一点是

current time is 1468393291214 found 1468392500369这说明时间同步可能有问题

让他们查了一下时间同步是否开启或者是否设置,最后查出来是因为ntp服务启了,但是可能中间有段时间有问题,服务器之间时间差异太大,同步时间后,再运行就不报这个错了

查看资料知道nodemanager有个NMLivelinessMonitor服务

该服务周期性遍历所有NodeManager,如果一个NodeManager在一定时间(可通过参数yarn.nm.liveness-monitor.expiry-interval-ms配置,默认为10min)内未汇报心跳信息,则认为它死掉了,它上面所有正在运行的Container将被置为运行失败(RM不会重新执行这些Container,它只会通过心跳机制告诉对应的AM,由AM决定是否重新执行,如果需要,则AM重新向RM申请资源)。

结合遇到的这个现象可以得出节点时间不同步导致时间相差太大,让nodemanager认为在超过10min没有汇报心跳

所以遇到问题不要只看表面现象,要根据日志进行分析解决

相关文章

  • 大数据运维问题记录(二)

    问题描述:一个项目组的同事反应他们的集群hive突然出现了问题,走mr就报错 问题解决:首先问了下他们最近做了些什...

  • 教你制作最强运维监控大屏

    IT新一代运维大屏,数据驱动运维智能化 重新定义,运维监控平台 运维数据融合集成,构建最强运维平台 用户知识图谱化...

  • 大数据运维问题记录(九)

    问题描述:部门承接的某运营商的CRM项目日志查询出现延迟,最高延迟达半小时,严重影响业务运行。问题解决:首先对他们...

  • 大数据运维问题记录(一)

    问题描述:在hive里运行select count(1)操作一个表时,老是失败,但是其它sql确不报错能正常跑出结...

  • 大数据运维问题记录(三)

    问题描述:在resourcemanager页面查看到一些节点的Health report中报 1/4 local-...

  • 大数据运维问题记录(四)

    问题描述:有个hadoop集群,跑hive任务的时候慢,而且经常跑的跑的就挂了,报内存不够等等的相关异常,需要我们...

  • 大数据运维问题记录(五)

    问题描述:集群中原有采集程序从源文件入hbase出现积压,优化修改程序都无济于事,需要赶紧出个方案进行解决 问题解...

  • 大数据运维问题记录(六)

    问题描述:公司之前的采集产品由于对大数据这块水土不服,入库慢等原因,再加上负责这个产品的团队全部走光,导致现在出了...

  • 大数据运维问题记录(八)

    问题描述:一个hbase集群出现数据倾斜,并且服务器经常会宕机问题解决:登录60010界面查看region的分布情...

  • 大数据运维问题记录(七)

    问题描述:公司中一个项目我们用netty接收厂商提供的数据入kafka,接收速度较慢,入kafka也比较慢,需要对...

网友评论

    本文标题:大数据运维问题记录(二)

    本文链接:https://www.haomeiwen.com/subject/zsthjttx.html