【背景】
1.公司项目目前会通过接口返回来控制前端的展示,接口吐出模块一、模块二、模块三等多个模块的样式,前端负责渲染。后端接口如果不吐出某个模块,前端不会异常 只是会不展示该模块
2.最近几天在刷自家app的时候发现某个页面的顶部模块有的时候出来,有的时候不出来
【分析】
1.首先想到的是这个顶部模块中调用的第三方接口存在问题,于是添加日志,发现日志返回结果正常。【排除】
2.时有时无让我想到可能是ngix出现问题,可能是ng下挂的多台服务器状态不一致,于是看了一下最近发布的记录,发现发布正常,没有服务器不一致的状况。【排除】
3.不死心,肯定是ngix出现问题,于是上没太服务器上tail日志,多次请求,发现这种异常只出现在指定的几台机器上。【兴奋,有突破点了】
4.于是添加更加详细的日志,发现获取meta信息的接口返回异常,导致后面拼装模块失败【诧异,服务器代码状态和发布包一致,为什么会出现这种问题】
5.仔细扫代码,发现获取meta信息的接口有一个TimeStamp的参数,查了一下接口文档,时间戳需要和当前系统时间戳保持一致,然后查了一下出现问题的服务器果然系统时间戳未校准。找同事问了一下,发现最近有扩容多台服务器【找到问题根源】
6.最后校准系统时间戳,偶现问题消失
【总结】
1.分布式系统下,偶现问题大多下层服务器状态不一致
2.开发过程中,多做校验,运行时异常要抛出
网友评论