美文网首页
[线上问题]服务系统时间戳不准确导致的线上异常

[线上问题]服务系统时间戳不准确导致的线上异常

作者: 程序员小鬼 | 来源:发表于2020-03-10 22:11 被阅读0次

    【背景】

    1.公司项目目前会通过接口返回来控制前端的展示,接口吐出模块一、模块二、模块三等多个模块的样式,前端负责渲染。后端接口如果不吐出某个模块,前端不会异常 只是会不展示该模块

    2.最近几天在刷自家app的时候发现某个页面的顶部模块有的时候出来,有的时候不出来

    【分析】

    1.首先想到的是这个顶部模块中调用的第三方接口存在问题,于是添加日志,发现日志返回结果正常。【排除】

    2.时有时无让我想到可能是ngix出现问题,可能是ng下挂的多台服务器状态不一致,于是看了一下最近发布的记录,发现发布正常,没有服务器不一致的状况。【排除】

    3.不死心,肯定是ngix出现问题,于是上没太服务器上tail日志,多次请求,发现这种异常只出现在指定的几台机器上。【兴奋,有突破点了】

    4.于是添加更加详细的日志,发现获取meta信息的接口返回异常,导致后面拼装模块失败【诧异,服务器代码状态和发布包一致,为什么会出现这种问题】

    5.仔细扫代码,发现获取meta信息的接口有一个TimeStamp的参数,查了一下接口文档,时间戳需要和当前系统时间戳保持一致,然后查了一下出现问题的服务器果然系统时间戳未校准。找同事问了一下,发现最近有扩容多台服务器【找到问题根源】

    6.最后校准系统时间戳,偶现问题消失

    【总结】

    1.分布式系统下,偶现问题大多下层服务器状态不一致

    2.开发过程中,多做校验,运行时异常要抛出

    相关文章

      网友评论

          本文标题:[线上问题]服务系统时间戳不准确导致的线上异常

          本文链接:https://www.haomeiwen.com/subject/lkpndhtx.html