产品无小事,我们应从每一个细节中吸取教训,得到提升。
线上问题复盘
上个月在优化一个批量导入表格的功能,在发布后30分钟接到用户反馈:导入功能不可用,于是整个团队开始40分钟的线上问题排查。虽然这是个很低级的错误,但还是觉得有必要写下来,加深印象 共勉之。
接下来玉米大人给大家分享下排查问题的整个过程:
定位问题:
在知道功能不可用后,产品先重现问题,定位出是哪个环节不可用,便于研发团队高效精准的排查问题;大概5分钟,测试小伙伴就发现是线上表格模板不是最新的,老表格不符合导入规则。
排查问题:
由于本次事故在测试环境下是没有问题的,那首先排查静态文件是否已上传服务器;
其次清除本地缓存,看问题是否解决;排除是否是本地缓存的问题;
由于本次事故是部分用户访问到新的,部分用户访问到老的文件,因此再确认发布结点,是否只发了部分结点;
以上都没有问题,那就怀疑是服务端缓存,更换文件名或存放路径,重新上传。
由于排查过程需要外部团队配合,因此花了30分钟左右,而事发时候又是下单高峰期,虽然当天业务量有影响,但好在紧急处理还算及时,影响在止损线范围内。
反思1:多和用户建立连接
平时要维护种子用户群,便于尽早的获知异常,在问题解决后也能及时告知,而且用户的参与感也更强。在本次事故中,我们团队一部分人在解决线上问题,一部分人负责先把本地表格模板发给客户,缓解客户的焦虑情绪。
腾讯有10/100/100法则,要求产品经理每月做10次用户调查,关注100个用户博客,看1000条用户反馈。目的是为了让产品经理更了解用户,和用户做朋友,才能更好的为用户解决问题。
反思2:产品设计多考虑兼容性
我们天天把提升客户体验挂在嘴边,但很少做到知行合一。对于本次事故,其实在产品设计阶段,我们是可以规避的。
这个批量导入的功能是面向B端客户的,B端用户的操作行为相对固定,我们不能随意改变用户现有的使用习惯。对于我们的产品,这次完全是满足一个全新的场景,是可以放2个类型的表格模板供不同需求的客户下载使用的。另一方面,即使将2个场景融合成一个场景,产品也要考虑新老表格的兼容性,尽可能的满足使用老表格的用户也不受产品改版的影响。
白鸦老师在有赞内训也分享过:“不能随便删除现有功能,哪怕只有一个客户在使用,在改变客户操作之前也要提前告知客户,要么就做个更高级的功能来取代原有功能”感兴趣的小伙伴可以看《有赞产品设计原则》。
反思3:慎重选择发布时间
这次事故由于是中午12点发布,发完后大家急于吃午饭,所以也是造成本次事故的一个小原因。一般公司为了降低运维成本,都会设定固定的发版日,那在发版日当天各个产品线是可以灵活选择发布时间的。建议选择业务量相对较低且有充足的时间做线上验收及处理异常的时间段来发布,同时要保证核心团队成员在场。
关注公众号【零点零壹】 ,在产品的路上 和玉米大人一起 每天进步一点点;
网友评论