这次简书的服务中断,我通过手机APP、网页版访问等多个角度进行了一个“黑盒”测试,浅浅地简析一下。
-
现象描述:使用网页版完全打不开,提示502网关错误;使用APP打开文章、帖子等正常,但是大转盘、简书钻、其他消息提醒打不开,提示502网关错误;简书钻POC计算正常;点赞正常;部分新文没有阅读量。
-
初步分析:根据现象的直观分析,手机端使用专有界面的功能均正常,说明此部分手机通过SQL或者其他数据库协议直接访问简书的数据库。也间接说明简书的数据库读取是正常的,大家的文是安全的。而可以写文、发帖说明数据库写入也正常。
网页版、手机APP部分功能提示502错误,说明简书的Web服务器访问出了问题。 -
深度分析:根据提示分析简书的Web服务器位于一个代理服务器的后面,代理服务器则起到堡垒机、防火墙的作用。对来自外界的流量进行清洗。简书Web服务器的升级或者这个代理服务器的升级如果出现问题,则可能造成Web服务器和代理服务器之间的访问中断。
-
原因追踪:在DevOps敏捷开发部署大行其道的今天,变更管理更加趋于敏捷倾向。尤其是简书这种非关键应用,大家往往更加关注新功能是否来的更快。这个事件发生在周末,极大可能是在服务器进行维护升级之后发生的。而造成这么长时间的服务中断,其原因很可能是过于宽松、过于追求敏捷的变更管理制度造成的。过度追求敏捷,导致测试工作、回滚方案准备不充分,一旦变更失败就会造成这个结果。
以上仅是我做了多年运维之后的一家之言,仅供大家参考,娱乐。但是永远记住一点,可靠性和敏捷性往往是相悖的,二者之间找到一个平衡很重要。
网友评论