突发事故复盘---两次把用户挡在门外的血泪史

作者: Yumi玉米大人 | 来源:发表于2018-07-31 13:43 被阅读56次

突发事故复盘---两次把用户挡在门外的血泪史
遇事不慌
怎样的风水把财神挡在门外？
把秘密锁在房内，把爷爷挡在门外
下雨，被挡在门外
今日问题-罗列解忧法
就是这个细节把你的好运挡在门外
被挡门外
E战到底Day15—统计函数（Subtotal）
春，我将你挡在门外

我们绞尽脑汁的来拉新，但是当用户走到门口时，却被我们硬生生的挡在了门外，就是进不来。为什么会出现这种情况？如何规避呢？看玉米大人的血泪史......

昨天救火，今天复盘

昨天是救火的一天，早上还没到公司就被告知，我们的产品挂了，用户无法访问。我们的产品是给内部员工使用的工作台，造成的影响就是大家没法正常工作了。

由于是周一，上海的堵车超级严重，我们的技术伙伴还困在路上；看着用户通过各种方式发来的反馈，真的是捉急啊。但是冷静下来，从产品层面该怎么将问题的严重程度降低呢？用户不能工作，那我们就把大家工作中常用的链接和工具收集起来，整理成文档的形式，通过一层层的组织架构，先下发给大家，解决燃眉之急也缓和大家的情绪。

事故原因：

产品缺陷：由于我们数据库连接数设置的较小，导致大批量用户同时访问时，很多用户进不来。

产品经理失职：昨天（周一）是老系统部分功能下线日，而我记错了日期，没有提前做好大量用户涌入的应急方案。

压测延期：我们是提前申请了压测，但是由于中间各种原因，导致压测延期了，直到事发当天晚上，压测报告才发出来。而这个事件，80%的可能是可以通过压测来规避的。

接下来如何规避：

不要偷懒，交给团队其他人的事，一定要及时跟进，及时要反馈；

跨部门协作的项目，里程碑结点一定要记清；

提前列出可能出现的风险和异常，一定要会上讲，引起大家的重视，团队一起讨论方案，并把方案提上日程；一对一面对面的沟通会被大家遗忘的。

重大项目建议申请>2台服务器资源，记得之前有个前辈也提到说，宁可申请多个小空间的服务器，也不要只申请一个大的服务器；

如果调用外部接口较多，自己一定要做缓存，减少对外部的依赖；

提升产品的可替代性，比如上文提到的静态文档，放在404页面或者其他异常错误页面上，方便用户遇到异常时，直接下载文档找到替代工具，不至于影响正常工作。

半年前犯的错

时间回到半年前，当时做一个年度账单的活动，也是吃了类似的亏。

在我们推文发出后，大量用户同时访问（10分钟内大概涌入近10万人），服务器撑不住啊，导致很多用户无法访问，硬生生的被挡在了门外。

不仅如此，我们没有将活动和主产品的服务器分开，且由于静态资源（图片、音频等）过大，还没有走CDN，加载过程中把公司的网络资源几乎占满了，直接影响到公司正常业务流程无法访问。

还好技术团队给力，及时修复了问题，不过还是损失很大，不仅主业务单量受到了相应的影响，我们活动也没有达到预期的目标。

给自己的建议

个人定位：

之前我一直觉得，我的定位是偏用户端的产品经理，我只要专注于用户研究，产品定位和机会评估、交互体验就可以了，技术方面有master可以托付。正因为如此，我经常性的被鄙视、被忽悠、被打击~~~

如果真的很难提升技术能力，那就多跟技术团队沟通，把自己可预见的风险和问题表达出来，请技术团队帮忙一起解决；不过技术方面的短板也在慢慢的拖垮我，接下来要恶补恶补！！！！

耐心，相信团队：

我是个急性子，做什么都急吼吼的，就像昨天的事故，我虽然尽力的压制着不去催促团队，但是我的表情和行动还是流漏出各种焦躁。

及时跟进，及时获得反馈

一般技术小伙伴都相对内敛，不善于主动表达；分配的任务，产品经理一定要及时跟进，提前了解大家的困难和问题，帮助团队一起去解决问题和风险；

训练团队集体心流：

硅谷有一种团队合作的思考模型“巴士指数”，就是你的团队里有个关键成员被bus撞了（这个假设让人很不舒服），其他人是否可以快速的补上，这个项目是不是还能完成。

虽然小团队内每个人都是不可替代的，但是可以经常沟通和团队活动提升合作度和默契度，面对单个队员的失误，提升其他队员的补位能力。

关注公众号【零点零壹】，和玉米大人一起每天进步一点点；

网友评论

大帅船长:加油！突发事件不可避免，关键在于复盘，不再犯同样的问题😀
Yumi玉米大人:@大帅船长写下来也是为了警告自己，千万不能再有下次了

本文标题：突发事故复盘---两次把用户挡在门外的血泪史

本文链接：https://www.haomeiwen.com/subject/qgthvftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

突发事故复盘---两次把用户挡在门外的血泪史

昨天救火，今天复盘

半年前犯的错

给自己的建议

相关文章