背景:当天发布了一版新功能,结果晚上20:00后出现了车辆自动人工提醒偏离线路报警,但是这个车辆并没有绑定任何线路,潜江的客服也没有人工操作过。一直自动报警持续出现,没有任何规律,不只是一台车。
严重性:惊动CEO,对我们平台的稳定性质疑,也没有立马处理好,导致客服妹妹背锅了,研发和客服互相怼。
处理:研发紧急查询后台线路设置,没有绑定车辆,客服主管查询监控,当时客服也没有操作电脑;日志登陆记录也没有外地IP登陆,系统登录记录只记录了一个潜江位置IP,无法定位到每个电脑。最后没有查到原因;担心有外部人员掌握平台密码,我紧急重置了密码,同时让研发清理缓存,告知客服使用新密码登录,夜班要交接给百班。23:00之后之后就没有收到人工处理的线路偏离警情了
复盘分析:
产生的原因:研发发版本的时候,缓存没有清理,导致系统自动启动某些服务。且日志记录不够精准,无法记录每台电脑的IP,还有操作内容。
后续类似与这样的事情两方面考虑:
1、日志这个东西要规划出解决方案—产品拿出
2、遇到系统问题回滚方案要建立起来。
3、版本发布缓存清理。









网友评论